1. 개요
2. 추정량·추정치
모집단의 모수에 대한 추정은 항상 표본통계량이라는 정보로 이루어지는데, 모수를 추정하는 공식을 나타내는 '표본통계량'을 추정량(estimator), 실제의 관찰값을 넣어 계산한 값을 추정치(estimate)라고 한다. 예를 들면 다음과 같다.
- 모수 [math(mu)]의 추정량은 [math(bar X=dfrac{sum X_i}n)]
- 모수 [math(sigma^2)]의 추정량은 [math(s^2=dfrac{sum(X_i-bar X)^2}{n-1})]
- 모수 [math(p)]의 추정량은 [math(hat p=dfrac{X}n)]
이때 구체적인 수치로 계산되어 나올 수 있는 [math(bar X=10)], [math(s^2=4)], [math(hat p=0.2)] 등은 추정치가 되는 것이다.
일반적으로 모수를 그리스 문자 [math(theta)]로, 추정량을 [math(hattheta)]으로, [math(E(hattheta)=bar{hattheta})]로 표기한다. [math(hattheta)]는 '세타 햇(theta hat)', [math(bar{hattheta})]는 '세타 햇 바(theta hat bar)'로 읽는다.
2.1. 불편추정량·편의추정량·편의
분포의 평균값이 추정하려는 모수와 일치하는 추정량을 불편추정량(unbiased estimator), 그렇지 않은 추정량을 편의추정량(biased estimator)이라고 한다.[1] 이를 식으로 나타내면 다음과 같다.
- [math(E(hattheta)=theta)]이면 불편추정량
- [math(E(hattheta)neqtheta)]이면 편의추정량
여기에서 [math(E(hattheta)-theta)]를 편의(bias)라고 한다. 따라서 편의가 0이면 불편추정량, 편의가 0이 아니면 편의추정량이 된다. 다음은 불편추정량의 예이다.
- [math(theta=muquadrightarrowquad E(hattheta)=E(bar X)=mu)]
- [math(theta=sigma^2quadrightarrowquad E(hattheta)=E(s^2)=sigma^2)]
이를 두고 '[math(bar X)]는 [math(mu)]의 불편추정량', '[math(s^2)]은 [math(sigma^2)]의 불편추정량'이라고 표현한다. 이렇게 되는 이유는 표본분포 참고.
2.2. 유효추정량·평균제곱오차
모수의 불편 추정량 가운데에서 분산이 최소인 불편 추정량을 말한다. 그래서 유효추정량(relatively efficient estimator)을 최소분산불편추정량(MVUE; minimum variance unbiased estimator)이라고도 한다. 이를 식으로 나타내면 다음과 같다.
이 식의 값을 평균제곱오차 또는 평균자승오차 또는 평균평방오차라고 한다. 그러나 말도 어렵고 특히 '자승'과 같은 표현은 아예 구식이기 때문에 MSE(mean squared error) 역시 많이 쓴다. [math(hattheta)]의 MSE는 [math(rm{MSE}(hattheta))]으로 표기한다.
MSE를 조금 더 쉽게 계산하는 공식을 유도해 보자.
[math(rm{MSE}(hattheta)=E[(theta-hattheta)^2] )]
이 식의 값을 평균제곱오차 또는 평균자승오차 또는 평균평방오차라고 한다. 그러나 말도 어렵고 특히 '자승'과 같은 표현은 아예 구식이기 때문에 MSE(mean squared error) 역시 많이 쓴다. [math(hattheta)]의 MSE는 [math(rm{MSE}(hattheta))]으로 표기한다.
MSE를 조금 더 쉽게 계산하는 공식을 유도해 보자.
[math(begin{aligned}E[(hattheta-theta)^2]&=E[{(hattheta-bar{hattheta})+(bar{hattheta}-theta)}^2]\&=E[(hattheta-bar{hattheta})^2]+E[(bar{hattheta}-theta)^2]+2E[(hattheta-bar{hattheta})(bar{hattheta}-theta) ]end{aligned})]
|
여기에서 [math(bar{hattheta})]와 [math(theta)]는 그저 일정한 값이고, 일정한 값에는 기댓값을 취하나 마나 하므로
또한, [math(hattheta-bar{hattheta})]는 [math(hattheta)]의 편차이고, 편차의 합은 0이므로 편차의 평균 역시 0이다.
따라서 [math({rm MSE})]를 다음과 같이 쓸 수 있다. 곧, [math({rm MSE})]는 [math(hattheta)]의 분산과 편의의 합이다.
불편추정량은 편의가 0이므로, 불편추정량의 [math({rm MSE})]는 [math(hattheta)]의 분산과 같다. 결국 이 [math({rm MSE})]가 작을수록 모수와의 오차가 덜하도록 해 준다는 의미이기 때문에 더 좋은 추정량이라고 할 수 있다.
[math(E[(bar{hattheta}-theta)^2]=(bar{hattheta}-theta)^2)]
또한, [math(hattheta-bar{hattheta})]는 [math(hattheta)]의 편차이고, 편차의 합은 0이므로 편차의 평균 역시 0이다.
[math(2E[(hattheta-bar{hattheta})(bar{hattheta}-theta) ]=2(bar{hattheta}-theta)E[(hattheta-bar{hattheta}) ]=0 )]
따라서 [math({rm MSE})]를 다음과 같이 쓸 수 있다. 곧, [math({rm MSE})]는 [math(hattheta)]의 분산과 편의의 합이다.
[math(begin{aligned}{rm MSE}=E[(theta-hattheta)^2]&=E[(theta-bar{hattheta})^2]+(bar{hattheta}-theta)^2\&={rm Var}(hattheta)+textsf{(bias)}^2end{aligned})]
불편추정량은 편의가 0이므로, 불편추정량의 [math({rm MSE})]는 [math(hattheta)]의 분산과 같다. 결국 이 [math({rm MSE})]가 작을수록 모수와의 오차가 덜하도록 해 준다는 의미이기 때문에 더 좋은 추정량이라고 할 수 있다.
2.2.1. 상대효율
모수 [math(theta)]에 대한 두 추정량을 [math(hattheta_1)], [math(hattheta_2)]라 할 때, 두 [math({rm MSE})]의 비율
을 [math(hattheta_1)]에 대한 [math(hattheta_2)]의 상대효율(relative efficiency)이라고 하며 약어로 [math(rm RE)]로 표기한다. 상대효율은 다음과 같이 활용한다.
[math(dfrac{E[(theta-hattheta_1)^2]}{E[(theta-hattheta_2)^2]}=dfrac{{rm MSE}(hattheta_1)}{{rm MSE}(hattheta_2)})]
을 [math(hattheta_1)]에 대한 [math(hattheta_2)]의 상대효율(relative efficiency)이라고 하며 약어로 [math(rm RE)]로 표기한다. 상대효율은 다음과 같이 활용한다.
- [math(rm RE>1)]이면 [math(hattheta_2)]가 더 좋은 추정량
- [math(rm RE<1)]이면 [math(hattheta_1)]이 더 좋은 추정량
결국 이는 위에서 살펴본 두 [math({rm MSE})]의 대소 판별과 다를 것이 없다.
2.3. 일치추정량
표본의 개수 [math(n)]과 임의의 양의 상수 [math(c)]에 대하여 다음이 성립할 때 [math(hattheta)]은 [math(theta)]의 일치추정량(consistent estimator)이라고 한다.
[math(theta=mu)]인 경우를 예를 들어 다르게 설명하면, 표본의 개수 [math(n)]이 커짐에 따라 표본평균 [math(bar X)]가 모평균 [math(mu)]에 확률적으로 수렴해 갈 때 [math(bar X)]는 [math(mu)]의 일치추정량이라고 한다.
또한, 다음 조건을 만족시키는 추정량은 일치추정량이다.
[math(displaystylelim_{ntoinfty}P[|hattheta-theta|geq c]=0)]
[math(theta=mu)]인 경우를 예를 들어 다르게 설명하면, 표본의 개수 [math(n)]이 커짐에 따라 표본평균 [math(bar X)]가 모평균 [math(mu)]에 확률적으로 수렴해 갈 때 [math(bar X)]는 [math(mu)]의 일치추정량이라고 한다.
또한, 다음 조건을 만족시키는 추정량은 일치추정량이다.
- [math(hattheta)]가 불편추정량
- [math(displaystylelim_{ntoinfty}{rm Var}(hattheta)=0)]
불편추정량은 편의가 0이므로, [math(rm{MSE}(hattheta)=rm{Var}(hattheta))]이다. 따라서 위 조건을 더욱 간단히 하면 다음과 같다.
- [math(displaystylelim_{ntoinfty}rm{MSE}(hattheta)=0)][3]에서, 편의가 0이 아니면서 [math(displaystylelim_{ntoinfty}rm{MSE}(hattheta)=0)]이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 불가능하다. 왜냐하면 우선 [math((textsf{bias})^2geq 0)]이므로 편의가 0이 아니라면 무조건 [math((textsf{bias})^2>0)]일 수밖에 없다. 이런 상황에서 [math(displaystylelim_{ntoinfty}rm{MSE}(hattheta)=0)]이 되려면 무조건 [math(rm{Var}(hattheta)<0)]이어야 하는데 이는 불가능하다. 분산은 '편차의 제곱의 평균'이므로 음이 될 수 없기 때문이다.]
따라서, [math(bar X)]와 [math(s^2)]은 앞서 밝혔듯이 불편추정량이며, [math({rm Var}(bar X)={sigma^2}/n)]이고 [math({rm Var}(s^2)={2sigma^4}/({n-1}))]이므로 [math(ntoinfty)]이면 극한값은 [math(0)]이 되어 [math(boldsymbol{bar X})]와 [math(boldsymbol s^2)]은 일치추정량이다.
2.4. 충분추정량·충분성
표본으로부터 얻은 추정량이 모수에 대한 정보를 충분히 제공하여 줄 때 그 추정량은 충분성(sufficiency)이 있다고 하며, 이 추정량을 충분추정량(sufficient estimator)이라고 한다. 수학적인 정의는 다음과 같다.
각 [math(hatTheta)]의 값에 대하여 [math(hatTheta=hattheta)]이 주어질 때 확률표본 [math(X_1,,X_2,,cdots,,X_n)]의 조건부확률분포 또는 밀도가 [math(theta)]에 대하여 독립이면, 통계량 [math(hatTheta)]을 모수 [math(theta)]의 충분추정량이라고 한다.
|
3. 우선순위
두 추정량 [math(hattheta_1)]과 [math(hattheta_2)] 중에서, 전자가 불편추정량이고 후자가 유효추정량인 경우 어떤 추정량을 우선할까? 곧, 다음과 같은 경우를 말한다.
이런 경우에는 일반적으로 불편추정량을 우선한다. 그러나 [math({rm MSE}[hattheta_1])]와 [math({rm MSE}[hattheta_2])]의 차이가 워낙에 커서 무시하기 어려운 경우 얘기가 달라질 수 있다.
[math(begin{cases}E(hattheta_1)=theta,;E(hattheta_1)neqtheta\{rm MSE}[hattheta_1]>{rm MSE}[hattheta_2]end{cases})]
이런 경우에는 일반적으로 불편추정량을 우선한다. 그러나 [math({rm MSE}[hattheta_1])]와 [math({rm MSE}[hattheta_2])]의 차이가 워낙에 커서 무시하기 어려운 경우 얘기가 달라질 수 있다.
3.1. 예시
[math(s^2)]의 추정량을 정하는 문제가 대표적인 예시이다. 원래대로라면, 분산은 편차의 제곱의 평균이므로 편차의 제곱을 모두 합한 뒤 표본의 개수로 나누어야 하는데, [math(sigma^2)]을 구할 때와는 달리 [math(s^2)]을 구할 때는 (표본의 개수)-1로 나누는 데에는 여러 이유가 있다. 그중에서 한 이유가 바로 불편추정량과 유효추정량의 문제이다. 설명에 앞서 다음과 같이 약속하자.
[math(s^2=dfrac{sum(X_i-bar X)^2}{n-1},;{hatsigma}^2=dfrac{sum(X_i-bar X)^2}n )][비교] ]
|
먼저, 앞서 밝혔듯이 [math(s^2)]은 [math(sigma^2)]의 불편추정량이므로, [math(s^2)]과 값이 같을 수가 없는 [math({hatsigma}^2)]은 편의추정량이다. 따라서 불편추정량의 관점에서 보면 [math(s^2)]이 [math({hatsigma}^2)]보다 더 적절한 추정량이다.
이번에는 유효추정량의 관점에서 [math(rm MSE)]의 대소를 판별해 보자.
이번에는 유효추정량의 관점에서 [math(rm MSE)]의 대소를 판별해 보자.
[math(begin{aligned}{rm MSE}[{hatsigma}^2]&={rm Var}({hatsigma}^2)+[E({hatsigma}^2)-sigma^2]^2\&=left(dfrac{n-1}nright)^{!2}dfrac{2sigma^4}{n-1}+left(dfrac{n-1}nsigma^2-sigma^2right)^{!2}\&=dfrac{2n-1}{n^2}sigma^4\{rm MSE}[s^2]&={rm Var}(s^2)+textsf{(bias)}^2\&=dfrac{2sigma^4}{n-1};(becausetextsf{(bias)}=0)\ \rightarrow{rm MSE}[s^2]-{rm MSE}[{hatsigma}^2]&=dfrac{2sigma^4}{n-1}-dfrac{2n-1}{n^2}sigma^4\&=dfrac{3n-1}{n^2(n-1)}sigma^4geq 0 \ \ therefore{rm MSE}[s^2]&geq{rm MSE}[{hatsigma}^2] end{aligned})]
|
[math(n>1)]일 경우에 [math(3n-1,;n^2,;n-1>0)], [math(sigma^4geq 0)]이므로 위가 성립하여, 결국 유효추정량의 관점에서는 [math({hatsigma}^2)]이 [math(s^2)]보다 [math({rm MSE})]가 클 일이 없으므로 더 적절한 추정량이다. 두 추정량의 [math(rm MSE)]가 같은 경우는 [math(sigma^4=0)]일 때인데, 이는 각 [math(X_i)]들의 값이 모두 같아 편차와 분산이 0이 되는 매우 드물고 극단적인 경우뿐이다. 따라서 사실상 [math({rm MSE}[s^2]>{rm MSE}[{hatsigma}^2])]로 보아도 좋다.
이렇게 [math(s^2)]과 [math({hatsigma}^2)]은 척도에 따라 무엇이 적절한지의 결론이 다르게 나오는데, 이 경우 불편추정량을 더 중요한 척도로 평가하여 [math(s^2)]을 채택하는 것이다. 다시 말해서, 표본분산을 구할 때는 표본의 개수가 아니라 표본의 개수에서 1을 뺀 값으로 나누게 된다.
이렇게 [math(s^2)]과 [math({hatsigma}^2)]은 척도에 따라 무엇이 적절한지의 결론이 다르게 나오는데, 이 경우 불편추정량을 더 중요한 척도로 평가하여 [math(s^2)]을 채택하는 것이다. 다시 말해서, 표본분산을 구할 때는 표본의 개수가 아니라 표본의 개수에서 1을 뺀 값으로 나누게 된다.