7.3 분산과 표준편차

Aug 21, 2021

확률분포의 분산

분산
- \[\sigma^2 = Var[ X ] = E[(X - \mu)^2]\]
이산확률변수의 분산
- \[\sigma^2 = \sum_{x_i \in \Omega} (x_i - \mu)^2 p(x_i)\]
연속확률변수의 분산 -\(\sigma^2 = \int^{\infty}_{-\infty}(x- \mu)^2p(x)dx\)

분산의 성질

\[Var[ X ] \geq 0\]
\[Var[ c ] = 0\]
\[Var[ cX ] = c^2 Var[X]\]
\[Var [ X ] = E[ X^2 ] - (E[ X ]^2) = E[ X^2 ] - \mu^2\]

두 확률변수의 합의 분산

\[Var[ X+Y ] = Var[ X ] + Var[ Y ] + 2E[ (X-\mu_X)(Y-\mu_Y) ]\]
증명
- \[E[ X+Y ] = \mu_X + \mu_Y\]
- \(Var[ X+Y ] = E[ (X+Y-(\mu_X+\mu_Y))^2 ]\)
  \(= E[ ((X-\mu_X) + (Y-\mu_Y))^2 ]\)
  \(= E[(X-\mu_X)^2] + E[(Y-\mu_Y)^2] + 2E[ (X-\mu_X)(Y-\mu_Y) ]\)
  \(= Var[ X ] + Var[ Y ] + 2E[ (X-\mu_X)(Y-\mu_Y) ]\)

확률변수의 독립

독립
- 두 확률변수가 서로에게 영향을 미치지 않음
- 두 확률변수가 가질 수 있는 모든 사건의 조합에 대해 결합사건의 확률이 각 사건의 확률의 곱과 같음
- \[E[ (X-\mu_X)(Y-\mu_Y) ] = 0\]
- \[Var[ X+Y ] = Var[ X ] + Var[ Y ]\]
종속
- 두 확률변수가 서로에게 영향을 미치는 경우
- 두 확률변수에서 하나의 확률변수의 값이 특정한 값이면 다른 확률변수의 확률분포가 영향을 받아 변하게 됨

표본평균의 분산

\[Var[\bar X] = {1 \over N}Var[X]\]
표본 개수가 커지면 표본평균의 값의 변동은 작아짐
표본의 수가 무한대가 되면 표본평균의 값은 항상 일정한 값이 나옴 (결정론적인 값)
표본 개수가 크면 표본평균은 원래 확률변수의 기댓값의 근삿값

표본분산의 기댓값

\[E[ S^2 ] = {N-1 \over N} \sigma^2\]
\[S^2_{unbiased} = {1 \over N-1} \sum (X_i - \bar X)^2\]
표본분산이 실제 분산보다 작을 수 있는 이유
- 표본분산을 계산할 때 사용하는 표본평균값이 데이터가 많이 몰려있는 쪽으로 편향되게 나옴
- 데이터가 몰려있는 위치에 있는 표본평균을 기준으로 각 데이터까지의 거리를 계산하면 원래의 기댓값으로부터의 거리보다 작게 나올 수 있음

비대칭도와 첨도

비대칭도(skew)
- 3차 모멘트 값에서 계산
- 확률밀도함수의 비대칭 정도
- 비대칭도가 0이면 확률분포가 대칭
- \[E[ ({X-\mu \over \sigma})^3 ] = {\mu_3 \over \sigma^3}\]
첨도(kurtosis)
- 4차 모멘트 값에서 계산
- 확률이 정규분포와 대비하여 중심에 모여있는지 바깥으로 퍼져있는지를 나타냄
- \[E[ ({X-\mu \over \sigma})^4 ] = {\mu_4 \over \sigma^4}\]

모멘트

\[\mu_n = E[ (X-\mu)^n ] = \int (x-\mu)^n p(x)dx\]
확률분포에서 계산한 특징값
두 확률분포 X, Y가 1차부터 무한대 차수까지의 모든 모멘트값이 값다면 두 확률 분포는 같은 확률분포 (\(X \stackrel d= Y\))

연습문제

7.3.1
1. 두 개의 주사위를 던져서 나온 합
2. 두 개의 주사위를 던져 합이 홀수가 되는 경우

7.3.2

  np.random.seed(10)
  X1 = np.random.normal(size=100)
  np.random.seed(17)
  X2 = np.random.normal(size=100)
  np.var(X1), np.var(X2), np.var(X1+X2)
    
  # (0.9351653502963495, 1.2561512415049996, 2.082866440357316)

7.3.3

  np.random.seed(17)
  X = np.random.normal(size=(100,50))
  X_mean = X.mean(axis=0)
  np.var(X[:,0]) / np.var(X_mean)
    
  # 53.09663004167266

이 글은 ‘데이터 사이언스 스쿨 수학편’을 정리한 것입니다. 질문이나 오류가 있다면 댓글 남겨주세요.