자료의 정리와 요약
-
통계 자료의 구분
- 양적자료(quantitative data) 또는 수치형자료(numerical data)
- 이산자료(자녀 수), 연속자료(키)
- 질적자료(qualitative data) 또는 범주형자료(categorical data)
- 명목자료(혈액형, 성별), 순서자료(학점, 부서평가)
- 양적자료(quantitative data) 또는 수치형자료(numerical data)
-
변수의 종류
1all variables 2├── numerical 3│ ├-─ continuous (리터 수) 4│ └-─ discrete (나라 수) 5└─── categorical 6 ├-─ Nominal (성별) 7 └-─ Ordinal (근무 한 시간 : 12-2)
도수분포표
자료의 특성을 기준으로 일정한 계급으로 나누고, 각 계급에 도수를 대응하여 작성한 표
- 범주형 도수분포표
색상 도수 상대도수 빨강 60 0.2 … … … - 계급형 도수분포표
계급(시간) 계급값 도수 상대도수 누적도수 누적 상대도수 10 ~ 17 13.5 7 0.14 7 0.14 17 ~ 24 20.5 24 0.48 31 0.62 … … … … … …
- 계급형 도수분포표 작성 순서
- 범위 $R=x_{max} - x_{min}$
- 계급의 수 $k=1+log_2n$에 가까운 자연수
- 계급의 간격 $c=\frac{R}{k}$
막대그래프
히스토그램
도수분포다각형
원그래프
꺾은선 그래프
대푯값
- $Q_1$ = 제1사분위수 = 제25백분위수
- $Q_2$ = 제2사분위수 = 제50사분위수 = 중앙값
- $Q_3$ = 제3사분위수 = 제75사분위수
산포도
- 사분위수 범위
IQR $=Q_3- Q_1$
- 모분산 $$\sigma^2=\frac1N\sum^N_{i-1}(x_i-\mu)^2$$
- 표본분산 $$S^2=\frac1{n-1}\sum^2_{i=1}(x_i-\bar{x})^2$$
- 변동계수 $$CV = \frac{표준편차}{평균}\times100%$$
- 5점 요약 표시
$[\ x_{min},\ Q_1,\ Me,\ Q_3,\ x_{max}\ ]$
- 왜도 $$\frac{\mu_3}{S^3}$$
- 첨도 $$\frac{\mu_4}{S^4}$$
상자그림
확률
표본공간과 사건
-
표본공간 : 모든 가능한 결과의 집합
-
표본점 : 표본공간을 구성하는 개개의 원소
-
사건 : 표본공간의 임의의 부분집합
-
근원사건 : 한 원소로만 이루어진 사건
-
전사건 : 표본공간의 모든 원소를 포함하는 사건 : $\Omega$
-
공사건
-
이산표본공간 vs 연속표본공간
-
사건의 연산 : 합사건, 곱사건, 여사건, 배반사건
-
연산법칙 : 교환법칙, 결합법칙, 분배법칙, 드모르간의 법칙
확률
- 라플라스의 확률 $$P(A)=\frac nN$$
- 확률의 공리
- 임의의 사건에 대해 $0 \leq P(A) \leq1$
- $P(\Omega)=1$
- A1, A2, …이 배반사건이라면 $P(A_1 \cup A_2 \cup …) = P(A_1)+P(A_2)+…$
- 확률의 성질
조건부 확률
- 조건부 확률 $$P(A\ |\ B) = \frac{P(A \cap B)}{P(B)},\ P(B)\neq0$$
- 곱셈정리 $$P(A \cap B)=P(B)P(A\ |\ B) = P(A)P(B\ |\ A)$$
독립 사건
- 독립 $$ P(A) = P(A\ |\ B)\ or\ P(B) = P(B\ |\ A) $$
- 곱셈정리 $$ P(A \cap B) = P(A)P(B) $$
베이즈 정리
- 분할
- 전확률 (사건 $A_1$… 이 분할일때) $$ P(B) = \sum^n_{k=1}P(A_k)\ P(B\ |\ A_k) $$
- 베이즈 정리 (사건 $A_1$… 이 분할이고, $P(A_i)>0, P(B)>0$ 일때) $$P(A_i\ |\ B)=\frac{P(A_i \cap B)}{P(B)}=\frac{P(A_i)P(B\ |\ A_i)}{\sum^n_{k=1}P(A_k)P(B\ |\ A_k)}$$
확률변수와 확률분포
확률 변수
- 확률질량함수 $$ f(x)=P(X=x) $$
- 확률밀도함수 $$ P(a \leq X \leq b) = \int^b_af(x)dx$$
확률 분포
- 분포함수 (누적분포함수) $$ F(x) = P(X \leq x) = \sum_{x_i \leq x}f(x_i)$$
- 분포함수가 이산확률변수인 경우, $P(X=x)=F(x)-F(x-1)$
- 연속확률분포 $$F(x)=P(X \leq x)=\int_{-\infty}^xf(x)dx$$
확률변수의 기대값과 분산
-
확률변수의 기댓값
-
확률변수의 분산
-
분산의 성질
결합확률분포
- 결합확률질량함수 $$ f(x_i,\ y_j) = P(X=x_i, Y=y_j)\ (i=1\ …\ n\ j=1\ …\ m)$$
- 결합분포함수 $$ F(x, y) = \sum_{u \leq x}\sum_{u \leq y}f(u, v) $$
- 결합확률밀도함수 $$ P{(X, Y) \in A} = \int_a^b \int_c^d f(x, y)dydx $$
- 결합분포함수 $$ F(x, y) = \int_{- \infty}^x \int_{- \infty}^y f(u, v) du dv$$
공분산과 상관계수
- 공분산 $$ Cov(X, Y) = E(XY) - \mu_X \mu_Y $$
- 상관계수
- $$ Corr(X, Y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y} $$
- 두 확률 변수가 독립이라면,
- $E(XY) = E(X)E(Y)$
- $Var(X+Y) = Var(X)+Var(Y)$
- $Cov(X, Y) = 0$
- $Corr(X, Y) = 0$
여러가지 확률분포
이산확률분포
-
이산균등분포
- 확률변수 X가 가지는 값의 확률이 모두 같은 확률분포 $$ f(x) = \frac1n (x=1, 2,\ …,\ n) $$
-
베르누이 분포 B(1, p)
- 발생할 수 있는 결과가 오직 두 개뿐인 경우 $$ f(x)=p^xq^{1-x}\ (x=0, 1) $$
- $E(x) = p$
- $V(x) = pq$
-
이항분포 B(n, p)
- n회의 베르누이 시행에서 성공할 횟수 X의 확률분포 $$ f(x) = _nC_x p^xq^{(n-x)} $$
- $E(X) = np$
- $V(X) = npq$
-
초기하분포 H(N, M, n)
- n개의 표본을 비복원 추출의 확률분포 $$ f(x) = \frac{{}{M}C{x} \cdot {}{N-M}C{n-x}}{{}{N}C{n}} $$
- $E(X) = n \frac{M}{N}$
- $V(X) = n \frac{M}{N}(1-\frac{M}{N})(\frac{N-n}{N-1})$
-
푸아송분포 P(m)
- 주어진 상황 속에서 발생하는 어떤 사건의 평균 발생회수 X의 확률분포 $$ f(x) = \frac{e^{-m}m^x}{x!}\ (x=0, 1, 2, …)$$
- $E(X) = m$
- $V(X) = m$
- n>=20, p<=0.05 이면 이항분포가 근사 가능
-
기하분포 Geo(p)
- 처음으로 성공할때까지의 시행횟수를 따르는 확률분포 $$ p(x) = q^{x-1}p (x=1, 2, …) $$
- $E(X) = \frac{1}{p}$
- $V(X) = \frac{q}{p^2}$
-
음이항분포 NB(k, p)
- 반복시행에서 k번 성공할때까지의 시행횟수 X의 확률분포 $$ f(x) = {}{x-1}C{k-1}\ p^kq^{x-k} $$
- $E(X)=\frac{k}{p}$
- $V(X)=\frac{kq}{p^2}$