1. 개요
Expectation ・ 期待値
어떤 확률 과정을 무한히 반복했을 때, 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 보다 엄밀하게 정의하면 기댓값은 확률 과정에서 얻을 수 있는 모든 값의 가중 평균이다.말만 기댓값이지 확률이랑 똑같은 거다
확률변수 [math(X)]가 어떤 모집단 분포를 따를 때 [math(X)]의 기댓값을 (모)평균(population mean)이라고도 부른다. 예컨대 다음과 같은 표현을 많이 접할 것이다.
어떤 확률 과정을 무한히 반복했을 때, 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 보다 엄밀하게 정의하면 기댓값은 확률 과정에서 얻을 수 있는 모든 값의 가중 평균이다.
확률변수 [math(X)]가 어떤 모집단 분포를 따를 때 [math(X)]의 기댓값을 (모)평균(population mean)이라고도 부른다. 예컨대 다음과 같은 표현을 많이 접할 것이다.
[math(X)]가 평균 [math(mu)], 표준편차 [math(sigma)]인 정규분포를 따른다고 하자.
2. 정의
2.1. 이산 확률 변수
이산 확률 변수 [math(X)]의 확률분포표가 다음과 같다고 하자. ([math(pleft(xright))]는 확률 질량 함수)
[math(X)]
| [math(x_1)]
| [math(x_2)]
| [math(cdots)]
| [math(x_n)]
| |
[math(pleft(xright))]
| [math(p_1)]
| [math(p_2)]
| [math(cdots)]
| [math(p_n)]
| |
이때 이산 확률 변수 [math(X)]의 기댓값은 [math(text{E}left(Xright))] 또는 [math(mathbb{E}(X))][1]와 같이 나타내고 다음과 같이 정의한다.
[math(displaystyle mathbb{E}left(Xright)=sum_{i=1}^{n}{x_ip_i})]
이산 확률 변수 [math(X)]가 취하는 값의 개수가 무한한 경우, 즉 자연수 집합과 일대일 대응 되는 경우에도 비슷하게 정의된다.
[math(displaystyle mathbb{E}left(Xright)=sum_{i=1}^{infty}{x_ip_i})]
2.2. 연속 확률 변수
연속 확률 변수 [math(X)]의 확률 밀도 함수가 [math(f(x))]라고 할 때 [math(X)]의 기댓값은 다음과 같이 정의한다.
[math(displaystyle mathbb{E}left(Xright)=int_{-infty}^{infty} x, f(x), mathrm{d}x = int_{mathbb{R}} x, f(x), mathrm{d}x)]
이산 확률 변수의 경우와 마찬가지로
[math(displaystyleint_{mathbb{R}}lvert xf(x) rvertmathrm{d}x)]
의 값이 무한대라면 기댓값이 정의되지 않는다.
이렇게 '정의되지 않음'은 기댓값의 고유한 특성이 아니라, 르베그 적분(Lebesgue integral)의 정의에서 오는 것이다. 위 이산 확률 변수의 경우도 이산 측도에서의 르베그 적분이므로[2]이 성립한다는 것을 염두에 두면 적분 맞다.] 마찬가지인 것. 이상적분(improper integral)과는 다르다.
예컨대 코시 분포(Cauchy distribution)[3]는 다음과 같은 확률밀도함수를 가진다.
[math(displaystyle f(x)= frac{1}{picdot(1+ x^2)})][4] 뒤에 점을 찍은 이유는 [math(pi(1+ x^2))]라고 쓰면 원주율과 다항식의 곱인지, 소수 계량 함수인지 혼동할 수 있기 때문.]
이 확률밀도함수는 표준정규분포와 유사하게 종 모양을 가지고 0을 중심으로 대칭이지만, 직관과는 달리 기댓값은 0이 아니고, 정의되지 않는다. 즉, 평균이 없는 분포다.[5] 이와 관련해서는 이상적분 항목 참조.
[math(displaystyleint_{mathbb{R}}lvert xf(x) rvertmathrm{d}x)]
의 값이 무한대라면 기댓값이 정의되지 않는다.
이렇게 '정의되지 않음'은 기댓값의 고유한 특성이 아니라, 르베그 적분(Lebesgue integral)의 정의에서 오는 것이다. 위 이산 확률 변수의 경우도 이산 측도에서의 르베그 적분이므로[2]이 성립한다는 것을 염두에 두면 적분 맞다.] 마찬가지인 것. 이상적분(improper integral)과는 다르다.
예컨대 코시 분포(Cauchy distribution)[3]는 다음과 같은 확률밀도함수를 가진다.
[math(displaystyle f(x)= frac{1}{picdot(1+ x^2)})][4] 뒤에 점을 찍은 이유는 [math(pi(1+ x^2))]라고 쓰면 원주율과 다항식의 곱인지, 소수 계량 함수인지 혼동할 수 있기 때문.]
이 확률밀도함수는 표준정규분포와 유사하게 종 모양을 가지고 0을 중심으로 대칭이지만, 직관과는 달리 기댓값은 0이 아니고, 정의되지 않는다. 즉, 평균이 없는 분포다.[5] 이와 관련해서는 이상적분 항목 참조.
2.3. 응용
어떤 함수 [math(g)]에 대해 [math(gleft(Xright))]의 기댓값, 즉 [math(text{E}left(gleft(Xright)right))]는 다음과 같이 정의된다.
- 이산 확률 변수 : [math(displaystyle text{E}left(gleft(Xright)right)=sum_{i=1}^{n}{gleft(x_iright)p_i})]
- 연속 확률 변수 : [math(displaystyle text{E}left(gleft(Xright)right)=int_{-infty}^{infty}gleft(xright)fleft(xright)dx)]
예를 들어 [math(X)]의 분산 [math(text{V}left(Xright))]는 다음과 같이 나타낼 수 있다.
[math(text{V}left(Xright)=text{E}left(left(X-text{E}left(Xright)right)^2right)=text{E}left(X^2right)-left{text{E}left(Xright)right}^2)]
3. 성질
상수 [math(a)]의 기댓값은 [math(a)]이다.
- [math(text{E}left(aright)=a)]
- [math(text{E}left(X+Yright)=text{E}left(Xright)+text{E}left(Yright))]
- [math(text{E}left(aX+bright)=a text{E}left(Xright)+b)]
- [math(text{E}left(XYright)=text{E}left(Xright)text{E}left(Yright))]
4. 기타
동의어인 '기대치'라는 단어는 일상적으로 생각보다 많이 쓰이는데, "기대치에 못 미쳤다" 같이 '바라는 정도'의 맥락으로 쓰인다.
5. 참고 문서
[1] 물리학에서는 전자, 수학에서는 후자를 많이 쓴다.[2] 이산 확률 변수에서 저게 왜 적분이지? 할 수 있겠지만, 사실 [math(displaystyle sum_{x=a}^b f(x) Leftrightarrow int_{a}^{b} f(x) , mathrm{d} lfloor x rfloor)[3] 자유도가 1인 t-분포와 같다.[4] [math(pi)[5] 물론 중앙값은 0이다.[6] 해당 성질을 갖는 X,Y를 비상관(uncorrelated) 확률변수라 부르며 비상관이지만 독립은 아닌 경우도 있다. 대표적으로 X의 분포가 짝함수이고 Y=|X|인 경우가 있다.