조건부 기댓값
- 조건부 기댓값(conditional expectation)
- 확률변수 Y의 기댓값을 구할 때 주변 확률밀도함수 \(p_y(y)\) 를 사용하여 가중치를 계산하지 않고 조건부 확률밀도함수 \(p_{y \vert x}(y \vert x)\) 를 이용하여 가중치를 계산한 경우
- = 조건부 평균(conditional mean)
- \[E_y[Y \vert X] = \int_{y=- \infty}^{y=\infty} yp_{Y \vert X}(y \vert x)dy\]
- \[E[Y \vert X] = \int yp(y \vert x)dy\]
- 확률변수 X의 값 x는 사용자가 지정해야하는 독립변수이므로 조건부 기대값은 조건이 되는 확률 변수의 값에 따라서 값이 달라지는 확률변수
- \(E[Y \vert X]\) 는 조건이 되는 확률변수 X의 값 x를 입력으로 가지는 함수
- \[E[Y \vert X = x] = f(x)\]
- \[E[Y \vert x] = f(x)\]
- \(f(x)\): 확률변수 X의 값 x를 입력받아 확률변수 Y의 기대값을 출력하는 함수
예측 문제
- 예측 문제(prediction): 두 확률변수 X, Y에서 X의 값을 통해 Y의 값을 알아내는 것
- Y = 연속활률 \(\rightarrow\) 회귀분석(regression analysis)
- Y = 이산확률변수 \(\rightarrow\) 분류(classification)
- 예측 문제의 답(\(\hat y\)): 조건부 기댓값, 중앙값, 최빈값 등
- \[x \rightarrow \hat y = E[y \vert x] = f(x)\]
조건부기댓값의 성질
- 조건부 기댓값 \(E[Y \vert X]\) 가 \(X\)의 함수, 즉 변환이므로 조건부 기댓값도 확률변수다
- 만약 확률변수 \(Y\)가 확률변수 \(X\)의 값을 독립변수로 하는 결정론적 함수값이라면
\(Y = g(X)\)
\(X\)의 값을 어떤 값 \(x\)로 정하는 순간 \(Y\)의 값도 정해지기 때문에 \(Y = g(X)\) 는 확률값이 아닌 상수가 된다
\(E[Y \vert X] = E[g(x) \vert X] = g(X)\)
같은 방식으로 확률변수 X와 Y가 결정론적 함수 관계가 아닐 때도 다음 등식이 성립
\(E[g(X)Y \vert X] = g(X)E[Y \vert X]\)
전체 기댓값의 법칙
- 조건부 기댓값은 확률변수이므로 조건이 되는 확률변수에 대해 다시 기댓값을 구할 수 있고, 이를 반복하여 구한 조건부 기댓값의 기댓값은 원래 확률변수의 기대값과 같음
- \[E_X[E_Y[Y \vert X]] = E_Y[Y]\]
- \[E[E[Y \vert X]] = E[Y]\]
조건부분산
- \(x\)에 대한 조건부 확률분포 \(p(y \vert x)\) 의 분산
- 예측문제의 관점에서 조건부 분산은 예측의 불확실성, 예측으로 맞출 수 없는 범위를 뜻함
- \[Var_y[Y \vert X] = E_Y[(Y-E_Y[Y \vert X])^2 \vert X] = \int (Y-E_Y[Y \vert X])^2 f_{Y \vert X} (y \vert x) dy\]
전체 분산의 법칙
- \[Var[Y] = E[Var[Y \vert X]] + Var[E[Y[X]]]\]
- \[E[Y \vert X] = \hat y \rightarrow Var[Y] = E[(\hat y -y)^2] + Var[\hat y]\]
- \(E[(\hat y - y)^2]\): 예측 오차 즉, 편향의 평균적인 크기를 의미
- \(Var[\hat y]\): 예측값의 변동 크기
- 예측값의 변동 크기가 증가하면 예측모형이 복잡하고 비선형적이며 주어진 데이터에 과최적화되기 쉽다는 것을 의미
- 따라서 전체 분산의 법칙은 예측 오차의 크기가 예측값의 변동의 합이 일정하므로 예측 오차를 줄미녀 모형이 복잡해지고 과최적화가 되며 반대로 모형을 과최적화를 막기 위해 단순하게 하면 예측 오차가 증가한다 (=편향-분산 상충(Bias-variance Tradeoff))
연습문제
- 7.6.1
이 글은 ‘데이터 사이언스 스쿨 수학편’을 정리한 것입니다.
질문이나 오류가 있다면 댓글 남겨주세요.