확률변수의 기댓값

  • 기댓값(expectation)
    • 확률변수의 확률밀도함수를 통해 얻은 확률변수의 이론적 평균값 (= 평균)
    • \(E[X]\) (\(X\): 확률변수)
    • \(\mu_X\) or \(\mu\)
  • 이산확률변수의 기댓값
    • 표본공간의 원소 \(x_i\)의 가중평균
    • \(\mu_X\) \(= E[X]\) \(= \sum_{x_i \in \Omega} x_ip(x_i)\)
  • e.g. 주사위
    • \[\mu_X = 1 \cdot p(1) + 2 \cdot p(2) + 3 \cdot p(3) + 4 \cdot p(4) + 5 \cdot p(5) + 6 \cdot p(6) = {7 \over 2}\]
  • 표본평균
    • \[\bar x = {1 \over N} \sum^N_{i=1}x_i\]
    • 기댓값 공식에서 \(x_i\)는 표본공간의 모든 원소를 뜻하지만 표본평균 공식에서 \(x_i\)는 선택된(sampled, realized) 표본만을 뜻함
  • 연속확률변수의 기댓값
    • 확률밀도함수를 가중치로 하여 모든 가능한 표본을 적분한 값
    • \[\mu_X = E[ X ] = \int^{\infty}_{-\infty}xp(x)dx\]
    • 기댓값은 여러 가능한 값을 확률(또는 확률밀도)값에 따라 가중합을 한 것이므로 가장 확률(또는 확률밀도)이 높은 값 근처의 값이 됨

확률변수의 변환

  • 기존의 확률변수를 사용하여 새로운 확률변수를 만드는 것
  • \[Y = f(X)\]
  • 여러 확률변수가 있을 때도 성립 (\(Z = X + Y\))
  • 확률변수에서 표본을 N번 뽑아서 그 값을 더하는 경우
    • \[Y = X_1 + X_2 + \cdots + X_N\]
    • \(X_1\)과 \(X_2\)가 같은 확률분포를 가지는 확률변수이지만 표본값이 다르기 때문에 \(Y = X + X + \cdots + X\)는 전혀 다름

기댓값의 성질

  • \(E[c] = c\) (\(c\): 확률변수가 아닌 상수)
  • \[E[cX] = cE[X]\]
  • \(E[X+Y]\) \(= E[X]\) \(+ E[Y]\)
  • \(E[c_1X + c_2Y]\) \(= c_1E[X]\) \(+ c_2E[Y]\)

통계량(statistics)

  • 확률변수 X로부터 데이터 집합 {\(x_1, x_2, \cdots, x_N\)}을 얻었을 때, 데이터 집합의 모든 값을 정해진 공식에 넣어서 하나의 숫자로 구한 것
  • ex) 표본의 합, 표본평균, 표본중앙값, 표본분산 등
  • 통계량도 확률변수의 변환에 포함

표본평균 확률변수

  • 확률변수로부터 N개의 표본을 만들어 구한 집합의 평균 값
  • \[\bar X\]
  • \[\bar X = {1 \over N} \sum_{i=1}^N X_i\]
    • \(X_i\): i번째로 실현된 표본값을 생성하는 확률변수, 원래 확률변수 X의 복사본

기댓값과 표본평균의 관계

  • \(E[\bar X] = E[X]\)
    (증명)
    \(E[\bar X] = E[{1 \over N} \sum_{i=1}^N X_i] = {1 \over N} \sum_{i=1}^NE[X_i]\)
    \(= {1 \over N} \sum_{i=1}^N\) \(E[X]\) \(= {1 \over N} N\) \(E[X]\) \(= E[X]\)
    \(\rightarrow\) 표본평균은 확률변수의 기댓값 근처의 값이 된다

중앙값

  • 확률변수의 중앙값(median): 중앙값보다 큰 값이 나올 확률과 작은 값이 나올 확률이 0.5로 같은 값
  • \(F(x)\): 누적확률분포, \(0.5 = F(\) 중앙값 \()\) \(\leftrightarrow\) 중앙값 = \(F^{-1}(0.5)\)

최빈값

  • 이산확률분포에서는 가장 확률 값이 큰 수
  • 연속확률분포에서는 확률밀도함수 \(p(x)\)의 값이 가장 큰 확률변수의 값 (= 확률밀도함수의 최댓값)
  • 최빈값 = \(\arg \max_x p(x)\)

연습문제

  • 7.2.1
    • \(E[X]\) \(= 1 \cdot p(1) + 0 \cdot p(0) = {1 \over 2}\)
  • 7.2.3
    • \[E[ Y ] = {1 \over 2} \times 180 \times 0.35 + {1 \over 2} \times 180 \times (0.35 + 0.175) = 78.75\]
  • 7.2.4
    • 4
  • 7.2.5
    • 5
  • 7.2.6
    • 표본 분산도 확률적인 데이터이다
    • \[s^2 = {1 \over N} \sum^N_{i=1} (X_i- \bar X)^2 = {1 \over N} \sum^N_{i=1} (X_i- {1 \over N} \sum^N_{i=1} X_i)^2\]



이 글은 ‘데이터 사이언스 스쿨 수학편’을 정리한 것입니다. 질문이나 오류가 있다면 댓글 남겨주세요.