확률분포의 분산
- 분산
- \[\sigma^2 = Var[ X ] = E[(X - \mu)^2]\]
- 이산확률변수의 분산
- \[\sigma^2 = \sum_{x_i \in \Omega} (x_i - \mu)^2 p(x_i)\]
- 연속확률변수의 분산 -\(\sigma^2 = \int^{\infty}_{-\infty}(x- \mu)^2p(x)dx\)
분산의 성질
- \[Var[ X ] \geq 0\]
- \[Var[ c ] = 0\]
- \[Var[ cX ] = c^2 Var[X]\]
- \[Var [ X ] = E[ X^2 ] - (E[ X ]^2) = E[ X^2 ] - \mu^2\]
두 확률변수의 합의 분산
- \[Var[ X+Y ] = Var[ X ] + Var[ Y ] + 2E[ (X-\mu_X)(Y-\mu_Y) ]\]
- 증명
- \[E[ X+Y ] = \mu_X + \mu_Y\]
- \(Var[ X+Y ] = E[ (X+Y-(\mu_X+\mu_Y))^2 ]\)
\(= E[ ((X-\mu_X) + (Y-\mu_Y))^2 ]\)
\(= E[(X-\mu_X)^2] + E[(Y-\mu_Y)^2] + 2E[ (X-\mu_X)(Y-\mu_Y) ]\)
\(= Var[ X ] + Var[ Y ] + 2E[ (X-\mu_X)(Y-\mu_Y) ]\)
확률변수의 독립
- 독립
- 두 확률변수가 서로에게 영향을 미치지 않음
- 두 확률변수가 가질 수 있는 모든 사건의 조합에 대해 결합사건의 확률이 각 사건의 확률의 곱과 같음
- \[E[ (X-\mu_X)(Y-\mu_Y) ] = 0\]
- \[Var[ X+Y ] = Var[ X ] + Var[ Y ]\]
- 종속
- 두 확률변수가 서로에게 영향을 미치는 경우
- 두 확률변수에서 하나의 확률변수의 값이 특정한 값이면 다른 확률변수의 확률분포가 영향을 받아 변하게 됨
표본평균의 분산
- \[Var[\bar X] = {1 \over N}Var[X]\]
- 표본 개수가 커지면 표본평균의 값의 변동은 작아짐
- 표본의 수가 무한대가 되면 표본평균의 값은 항상 일정한 값이 나옴 (결정론적인 값)
- 표본 개수가 크면 표본평균은 원래 확률변수의 기댓값의 근삿값
표본분산의 기댓값
- \[E[ S^2 ] = {N-1 \over N} \sigma^2\]
- \[S^2_{unbiased} = {1 \over N-1} \sum (X_i - \bar X)^2\]
- 표본분산이 실제 분산보다 작을 수 있는 이유
- 표본분산을 계산할 때 사용하는 표본평균값이 데이터가 많이 몰려있는 쪽으로 편향되게 나옴
- 데이터가 몰려있는 위치에 있는 표본평균을 기준으로 각 데이터까지의 거리를 계산하면 원래의 기댓값으로부터의 거리보다 작게 나올 수 있음
비대칭도와 첨도
- 비대칭도(skew)
- 3차 모멘트 값에서 계산
- 확률밀도함수의 비대칭 정도
- 비대칭도가 0이면 확률분포가 대칭
- \[E[ ({X-\mu \over \sigma})^3 ] = {\mu_3 \over \sigma^3}\]
- 첨도(kurtosis)
- 4차 모멘트 값에서 계산
- 확률이 정규분포와 대비하여 중심에 모여있는지 바깥으로 퍼져있는지를 나타냄
- \[E[ ({X-\mu \over \sigma})^4 ] = {\mu_4 \over \sigma^4}\]
모멘트
- \[\mu_n = E[ (X-\mu)^n ] = \int (x-\mu)^n p(x)dx\]
- 확률분포에서 계산한 특징값
- 두 확률분포 X, Y가 1차부터 무한대 차수까지의 모든 모멘트값이 값다면 두 확률 분포는 같은 확률분포 (\(X \stackrel d= Y\))
연습문제
- 7.3.1
- 두 개의 주사위를 던져서 나온 합
- 두 개의 주사위를 던져 합이 홀수가 되는 경우
- 7.3.2
np.random.seed(10) X1 = np.random.normal(size=100) np.random.seed(17) X2 = np.random.normal(size=100) np.var(X1), np.var(X2), np.var(X1+X2) # (0.9351653502963495, 1.2561512415049996, 2.082866440357316)
- 7.3.3
np.random.seed(17) X = np.random.normal(size=(100,50)) X_mean = X.mean(axis=0) np.var(X[:,0]) / np.var(X_mean) # 53.09663004167266
이 글은 ‘데이터 사이언스 스쿨 수학편’을 정리한 것입니다.
질문이나 오류가 있다면 댓글 남겨주세요.