기댓값

문서의 이전 버전(r3)을 보고 있습니다.

역사 raw
대문 랜덤 문서 최근 토론


1. 개요2. 정의
2.1. 이산 확률 변수2.2. 연속 확률 변수2.3. 응용
3. 성질4. 기타5. 참고 문서


1. 개요

Expectation ・ 期待値

어떤 확률 과정을 무한히 반복했을 때, 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 보다 엄밀하게 정의하면 기댓값은 확률 과정에서 얻을 수 있는 모든 값의 가중 평균이다.말만 기댓값이지 확률이랑 똑같은 거다

확률변수 [math(X)]가 어떤 모집단 분포를 따를 때 [math(X)]의 기댓값을 (모)평균(population mean)이라고도 부른다. 예컨대 다음과 같은 표현을 많이 접할 것이다.
[math(X)]가 평균 [math(mu)], 표준편차 [math(sigma)]인 정규분포를 따른다고 하자.

2. 정의

2.1. 이산 확률 변수

이산 확률 변수 [math(X)]의 확률분포표가 다음과 같다고 하자. ([math(pleft(xright))]는 확률 질량 함수)
[math(X)]
[math(x_1)]
[math(x_2)]
[math(cdots)]
[math(x_n)]
[math(pleft(xright))]
[math(p_1)]
[math(p_2)]
[math(cdots)]
[math(p_n)]
이때 이산 확률 변수 [math(X)]의 기댓값은 [math(text{E}left(Xright))] 또는 [math(mathbb{E}(X))][1]와 같이 나타내고 다음과 같이 정의한다.
[math(displaystyle mathbb{E}left(Xright)=sum_{i=1}^{n}{x_ip_i})]
이산 확률 변수 [math(X)]가 취하는 값의 개수가 무한한 경우, 즉 자연수 집합과 일대일 대응 되는 경우에도 비슷하게 정의된다.
[math(displaystyle mathbb{E}left(Xright)=sum_{i=1}^{infty}{x_ip_i})]
단, 이 급수가 절대수렴해야 한다. 다시 말해서 각 항에 절댓값을 씌운 급수
[math(displaystylesum_{i= 1}^inftylvert x_ip_i rvert )]
가 무한대로 발산하는 경우는 기댓값이 정의되지 않는다. 이는 리만 재배열 정리란 녀석 때문이다.

2.2. 연속 확률 변수

연속 확률 변수 [math(X)]의 확률 밀도 함수가 [math(f(x))]라고 할 때 [math(X)]의 기댓값은 다음과 같이 정의한다.
[math(displaystyle mathbb{E}left(Xright)=int_{-infty}^{infty} x, f(x), mathrm{d}x = int_{mathbb{R}} x, f(x), mathrm{d}x)]
이산 확률 변수의 경우와 마찬가지로
[math(displaystyleint_{mathbb{R}}lvert xf(x) rvertmathrm{d}x)]
의 값이 무한대라면 기댓값이 정의되지 않는다.

이렇게 '정의되지 않음'은 기댓값의 고유한 특성이 아니라, 르베그 적분(Lebesgue integral)의 정의에서 오는 것이다. 위 이산 확률 변수의 경우도 이산 측도에서의 르베그 적분이므로[2]이 성립한다는 것을 염두에 두면 적분 맞다.] 마찬가지인 것. 이상적분(improper integral)과는 다르다.

예컨대 코시 분포(Cauchy distribution)[3]는 다음과 같은 확률밀도함수를 가진다.
[math(displaystyle f(x)= frac{1}{picdot(1+ x^2)})][4] 뒤에 점을 찍은 이유는 [math(pi(1+ x^2))]라고 쓰면 원주율과 다항식의 곱인지, 소수 계량 함수인지 혼동할 수 있기 때문.]
이 확률밀도함수는 표준정규분포와 유사하게 종 모양을 가지고 0을 중심으로 대칭이지만, 직관과는 달리 기댓값은 0이 아니고, 정의되지 않는다. 즉, 평균이 없는 분포다.[5] 이와 관련해서는 이상적분 항목 참조.

2.3. 응용

어떤 함수 [math(g)]에 대해 [math(gleft(Xright))]의 기댓값, 즉 [math(text{E}left(gleft(Xright)right))]는 다음과 같이 정의된다.
  • 이산 확률 변수 : [math(displaystyle text{E}left(gleft(Xright)right)=sum_{i=1}^{n}{gleft(x_iright)p_i})]
  • 연속 확률 변수 : [math(displaystyle text{E}left(gleft(Xright)right)=int_{-infty}^{infty}gleft(xright)fleft(xright)dx)]

예를 들어 [math(X)]의 분산 [math(text{V}left(Xright))]는 다음과 같이 나타낼 수 있다.
[math(text{V}left(Xright)=text{E}left(left(X-text{E}left(Xright)right)^2right)=text{E}left(X^2right)-left{text{E}left(Xright)right}^2)]

3. 성질

상수 [math(a)]의 기댓값은 [math(a)]이다.
  • [math(text{E}left(aright)=a)]

기댓값은 선형성을 가진다. 즉, 다음이 성립한다. ([math(X, Y)]는 확률변수, [math(a)]는 상수)
  • [math(text{E}left(X+Yright)=text{E}left(Xright)+text{E}left(Yright))]
  • [math(text{E}left(aX+bright)=a text{E}left(Xright)+b)]

확률변수 [math(X, Y)]가 서로 독립일 경우에는 다음의 성질도 성립한다.[6]
  • [math(text{E}left(XYright)=text{E}left(Xright)text{E}left(Yright))]

4. 기타

동의어인 '기대치'라는 단어는 일상적으로 생각보다 많이 쓰이는데, "기대치에 못 미쳤다" 같이 '바라는 정도'의 맥락으로 쓰인다.

5. 참고 문서

[1] 물리학에서는 전자, 수학에서는 후자를 많이 쓴다.[2] 이산 확률 변수에서 저게 왜 적분이지? 할 수 있겠지만, 사실 [math(displaystyle sum_{x=a}^b f(x) Leftrightarrow int_{a}^{b} f(x) , mathrm{d} lfloor x rfloor)[3] 자유도가 1인 t-분포와 같다.[4] [math(pi)[5] 물론 중앙값은 0이다.[6] 해당 성질을 갖는 X,Y를 비상관(uncorrelated) 확률변수라 부르며 비상관이지만 독립은 아닌 경우도 있다. 대표적으로 X의 분포가 짝함수이고 Y=|X|인 경우가 있다.