bong-u/til

확률과 통계

수정일 : 2023-08-12

자료의 정리와 요약

  • 통계 자료의 구분

    • 양적자료(quantitative data) 또는 수치형자료(numerical data)
      • 이산자료(자녀 수), 연속자료(키)
    • 질적자료(qualitative data) 또는 범주형자료(categorical data)
      • 명목자료(혈액형, 성별), 순서자료(학점, 부서평가)
  • 변수의 종류

    1all variables
    2├── numerical
    3│   ├-─ continuous (리터 수)
    4│   └-─ discrete (나라 수)
    5└─── categorical
    6    ├-─ Nominal (성별)
    7    └-─ Ordinal (근무 한 시간 : 12-2)
    

도수분포표

자료의 특성을 기준으로 일정한 계급으로 나누고, 각 계급에 도수를 대응하여 작성한 표

  • 범주형 도수분포표
    색상 도수 상대도수
    빨강 60 0.2
  • 계급형 도수분포표
    계급(시간) 계급값 도수 상대도수 누적도수 누적 상대도수
    10 ~ 17 13.5 7 0.14 7 0.14
    17 ~ 24 20.5 24 0.48 31 0.62
  • 계급형 도수분포표 작성 순서
    1. 범위 $R=x_{max} - x_{min}$
    2. 계급의 수 $k=1+log_2n$에 가까운 자연수
    3. 계급의 간격 $c=\frac{R}{k}$

막대그래프

히스토그램

도수분포다각형

원그래프

꺾은선 그래프

대푯값

  • $Q_1$ = 제1사분위수 = 제25백분위수
  • $Q_2$ = 제2사분위수 = 제50사분위수 = 중앙값
  • $Q_3$ = 제3사분위수 = 제75사분위수

산포도

  • 사분위수 범위

    IQR $=Q_3- Q_1$

  • 모분산 $$\sigma^2=\frac1N\sum^N_{i-1}(x_i-\mu)^2$$
  • 표본분산 $$S^2=\frac1{n-1}\sum^2_{i=1}(x_i-\bar{x})^2$$
  • 변동계수 $$CV = \frac{표준편차}{평균}\times100%$$
  • 5점 요약 표시

    $[\ x_{min},\ Q_1,\ Me,\ Q_3,\ x_{max}\ ]$

  • 왜도 $$\frac{\mu_3}{S^3}$$
  • 첨도 $$\frac{\mu_4}{S^4}$$

상자그림

확률

표본공간과 사건

  • 표본공간 : 모든 가능한 결과의 집합

  • 표본점 : 표본공간을 구성하는 개개의 원소

  • 사건 : 표본공간의 임의의 부분집합

  • 근원사건 : 한 원소로만 이루어진 사건

  • 전사건 : 표본공간의 모든 원소를 포함하는 사건 : $\Omega$

  • 공사건

  • 이산표본공간 vs 연속표본공간

  • 사건의 연산 : 합사건, 곱사건, 여사건, 배반사건

  • 연산법칙 : 교환법칙, 결합법칙, 분배법칙, 드모르간의 법칙

확률

  • 라플라스의 확률 $$P(A)=\frac nN$$
  • 확률의 공리
    1. 임의의 사건에 대해 $0 \leq P(A) \leq1$
    2. $P(\Omega)=1$
    3. A1, A2, …이 배반사건이라면 $P(A_1 \cup A_2 \cup …) = P(A_1)+P(A_2)+…$
  • 확률의 성질

조건부 확률

  • 조건부 확률 $$P(A\ |\ B) = \frac{P(A \cap B)}{P(B)},\ P(B)\neq0$$
  • 곱셈정리 $$P(A \cap B)=P(B)P(A\ |\ B) = P(A)P(B\ |\ A)$$

독립 사건

  • 독립 $$ P(A) = P(A\ |\ B)\ or\ P(B) = P(B\ |\ A) $$
  • 곱셈정리 $$ P(A \cap B) = P(A)P(B) $$

베이즈 정리

  • 분할
  • 전확률 (사건 $A_1$… 이 분할일때) $$ P(B) = \sum^n_{k=1}P(A_k)\ P(B\ |\ A_k) $$
  • 베이즈 정리 (사건 $A_1$… 이 분할이고, $P(A_i)>0, P(B)>0$ 일때) $$P(A_i\ |\ B)=\frac{P(A_i \cap B)}{P(B)}=\frac{P(A_i)P(B\ |\ A_i)}{\sum^n_{k=1}P(A_k)P(B\ |\ A_k)}$$

확률변수와 확률분포

확률 변수

  • 확률질량함수 $$ f(x)=P(X=x) $$
  • 확률밀도함수 $$ P(a \leq X \leq b) = \int^b_af(x)dx$$

확률 분포

  • 분포함수 (누적분포함수) $$ F(x) = P(X \leq x) = \sum_{x_i \leq x}f(x_i)$$
  • 분포함수가 이산확률변수인 경우, $P(X=x)=F(x)-F(x-1)$
  • 연속확률분포 $$F(x)=P(X \leq x)=\int_{-\infty}^xf(x)dx$$

확률변수의 기대값과 분산

  • 확률변수의 기댓값

  • 확률변수의 분산

  • 분산의 성질

결합확률분포

  • 결합확률질량함수 $$ f(x_i,\ y_j) = P(X=x_i, Y=y_j)\ (i=1\ …\ n\ j=1\ …\ m)$$
  • 결합분포함수 $$ F(x, y) = \sum_{u \leq x}\sum_{u \leq y}f(u, v) $$
  • 결합확률밀도함수 $$ P{(X, Y) \in A} = \int_a^b \int_c^d f(x, y)dydx $$
  • 결합분포함수 $$ F(x, y) = \int_{- \infty}^x \int_{- \infty}^y f(u, v) du dv$$

공분산과 상관계수

  • 공분산 $$ Cov(X, Y) = E(XY) - \mu_X \mu_Y $$
  • 상관계수
  • $$ Corr(X, Y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y} $$
  • 두 확률 변수가 독립이라면,
    1. $E(XY) = E(X)E(Y)$
    2. $Var(X+Y) = Var(X)+Var(Y)$
    3. $Cov(X, Y) = 0$
    4. $Corr(X, Y) = 0$

여러가지 확률분포

이산확률분포

  • 이산균등분포

    • 확률변수 X가 가지는 값의 확률이 모두 같은 확률분포 $$ f(x) = \frac1n (x=1, 2,\ …,\ n) $$
  • 베르누이 분포 B(1, p)

    • 발생할 수 있는 결과가 오직 두 개뿐인 경우 $$ f(x)=p^xq^{1-x}\ (x=0, 1) $$
    • $E(x) = p$
    • $V(x) = pq$
  • 이항분포 B(n, p)

    • n회의 베르누이 시행에서 성공할 횟수 X의 확률분포 $$ f(x) = _nC_x p^xq^{(n-x)} $$
    • $E(X) = np$
    • $V(X) = npq$
  • 초기하분포 H(N, M, n)

    • n개의 표본을 비복원 추출의 확률분포 $$ f(x) = \frac{{}{M}C{x} \cdot {}{N-M}C{n-x}}{{}{N}C{n}} $$
    • $E(X) = n \frac{M}{N}$
    • $V(X) = n \frac{M}{N}(1-\frac{M}{N})(\frac{N-n}{N-1})$
  • 푸아송분포 P(m)

    • 주어진 상황 속에서 발생하는 어떤 사건의 평균 발생회수 X의 확률분포 $$ f(x) = \frac{e^{-m}m^x}{x!}\ (x=0, 1, 2, …)$$
    • $E(X) = m$
    • $V(X) = m$
    • n>=20, p<=0.05 이면 이항분포가 근사 가능
  • 기하분포 Geo(p)

    • 처음으로 성공할때까지의 시행횟수를 따르는 확률분포 $$ p(x) = q^{x-1}p (x=1, 2, …) $$
    • $E(X) = \frac{1}{p}$
    • $V(X) = \frac{q}{p^2}$
  • 음이항분포 NB(k, p)

    • 반복시행에서 k번 성공할때까지의 시행횟수 X의 확률분포 $$ f(x) = {}{x-1}C{k-1}\ p^kq^{x-k} $$
    • $E(X)=\frac{k}{p}$
    • $V(X)=\frac{kq}{p^2}$