[Include(틀:평균)] [목차] == 개요 == {{{+3 [[平]][[均]] / mean, average}}} [[대푯값]]의 일종이다. [[산술 평균]], [[기하 평균]], [[조화 평균]] 등이 있다. == 종류 == 양수에 대해서 산술 평균 ≥ 기하 평균 ≥ 조화 평균이 성립한다. === 산술 평균 === Arithmetic mean {{{+2 [math(\displaystyle \text{AM}=\frac{1}{n} \sum_{i=1}^{n}a_{i}={a_{1}+a_{2}+\cdots+a_{n}\over n})]}}} 가장 일반적으로 사람들이 생각하는 평균으로 다 합쳐서 개수만큼 나눠서 얻을 수 있다. 독립변수가 연속인 경우 확률변수를 확률측도에 대해 적분한 것으로 정의한다. 각각의 관찰값들의 총합을 [math(n)]으로 나눈 값이라고 말하기도 한다. 어찌보면 당연한 사실이겠지만 모든 관찰값들에 동일하게 임의의 값을 더하거나, 뺀 뒤 다시 평균을 내면 평균에도 동일한 값이 계산된 결과가 나온다. 산술 평균은 아래와 같은 4가지 특징을 가지고 있다. * '''극단적인 값에 민감하다.''' 보통 평균과 비교되는 중간값,최빈값과 비교하면 극단적인 값에 더 크게 영향을 받는다. 예를 들어 {1,2,3}에서 평균은 2이고 중간값도 2이다. 하지만 3을 96으로 바꾼 {1,2,96}의 경우에 중간값은 2로 변함없지만 평균은 33으로 매우 크게 변한다. * '''편차의 합이 0이 된다.''' [[분산]] 참고. * '''분산이 가장 작다.''' 이 개념은 회귀분석을 배울 때에도 쓰인다. 최빈값 같은 다른 기준으로 분산을 구했을 때보다 항상 분산이 작게 나온다. * '''표본 값의 평균이 모집단과 크게 다르지 않다.''' 표본을 어떻게 뽑느냐에 따라 평균은 다르게 나올수 있다. 어쩌면 모집단의 평균과 한참 거리가 먼 값이 나올 수도 있다. 이것은 중간값,최빈값 등도 마찬가지이다. 그런데 산술평균은 중간값,최빈값과 비교해서 표본의 상태에 크게 영향을 받지 않는다. 그래서 다른 값들에 비해 모집단의 참값에서 크게 벗어나지 않는다. ==== 모 평균 ==== population mean([[μ]]) [[모집단]]의 데이터를 모두 더한 후 모집단의 데이터 갯수 N으로 나눈 것이다. [[기댓값]] 문서 참조. ==== 표본 평균 ==== sample mean([math(\bar{X})]) [[표본]]의 데이터를 모두 더한 후 표본의 데이터 개수 n으로 나눈 것이다. 표본 평균은 확률변수이다. 즉, 어떤 표본을 추출했냐에 따라서 표본평균의 값이 변하는 변수이다. 그렇기 때문에 [[https://www.youtube.com/watch?v=N8j5OAUf1jM|표본평균은 분포]]를 가지게 되고, 또 우리는 표본평균의 평균 또는 표본평균의 분산을 계산하게 되는 것이다. --(이미 설문자료를 취합했으므로 표본평균이 정해진 값이라는 생각을 버려야 한다.)-- [[표본 분산]]이나 [[표본 표준 편차]]와 달리 n-1로 나누는 것이 아닌 것에 주의. (표본분산 관련된 설명은 링크를 참고. [[https://namu.wiki/w/분산#toc|표본분산 계산]]) ==== 가중 평균 ==== weighted mean 개별 값에 각각 가중값을 곱하고 계산한 산술 평균의 변형. 당신이 국어 40점 수학 50점일때 학과에 따라 한쪽에 10%의 가산점을 주고 평균하는 경우가 여기 속한다. 참고로 [[성격차지수]]나 여론조사 때도 가중평균을 쓴다. ==== 절사 평균 ==== trimmed mean 평균을 구할때 극단값을 빼고 계산한 산술 평균의 변형. 평균을 낼 때 최고점/최저점이나 양 극단의 10% 정도를 잘라내는 것이 여기 속한다. [[피겨 스케이팅]], 싱크로나이즈드 스위밍, [[리듬체조]] 등 예술적 가치가 높은 스포츠 종목에서 판정단이 점수를 내릴 때 최상위, 최하위 판정자 1명의 점수를 삭제하고 나머지 판정단의 점수로 평균을 내는 것이 이것이다.[* 그래서 '''올림픽 평균(Olympic average)'''이라고도 한다.] 물론 모집단 수는 2를 뺀다. === 기하 평균 === Geometric mean {{{+2 [math(\text{GM}=\sqrt[n]{{\displaystyle \prod_{i=1}^{n}}a_{i}}=\sqrt[n]{\left(a_{1}a_{2}\cdots a_{n}\right)})]}}} 숫자들을 모두 곱해서 거듭제곱근을 취해서 얻는 평균. 연속변수의 경우 확률변수에 p제곱을 한 뒤에 적분한 것을 다시 p제곱근을 취하고 나서 독립변수의 측도로 나눠준 뒤 p를 0으로 보내면 된다. 숫자들의 로그의 산술평균을 구한 후 그것을 밑이 같은 지수를 취해도 된다. 기하 평균은 예를 들어 연간 경제성장률, 물가인상율, 연간 이자율, 감쇠/증폭율, 백분비, 크기 확대 비율 같이 표본들이 비율이나 배수이고 각 표본값이 연속성/연계성이 있어서 표본들을 곱한 값이 의미가 있는 경우에 주로 쓰인다. 예를 들어 한국의 2000년 부터 2010년까지 평균경제성장률 등. 맹점이 하나 있는데, 곱하는 성분 중 하나라도 0이 있으면 '''기하 평균이 0이 되어버린다'''는 점이다. 그래서 표본 중 0이 있는 경우 이를 제외시켜야 한다. [[허수|모든 성분의 곱이 0보다 작을 경우]] 역시 주의해야 한다. === 조화 평균 === Harmonic mean {{{+2 [math(\text{HM}=\left(\dfrac{1}{n}{\displaystyle \sum_{i=1}^{n}}a_{i}^{-1}\right)^{-1}=\dfrac{n}{\left(\dfrac{1}{a_{1}}+\dfrac{1}{a_{2}}+\cdots+\dfrac{1}{a_{n}}\right)})]}}} 숫자들의 역수의 산술평균을 구한 후 그것을 역수로 취한 평균. 연속변수의 경우 확률변수에 역수를 취한 것을 확률측도에 대해 적분한 뒤 다시 역수를 취한 후 독립변수의 측도로 나눠주면 된다. 역수를 취해야 하므로 숫자들 중에 0이 끼어있으면 계산할 수 없다. 또한 각 숫자들이 모두 양수여야만 의미있는 값이 얻어진다. 조화 평균은 기하평균과 같이 표본들이 비율이나 배수이지만 각 표본값은 독립적이고 표본끼리 곱한 값이 의미가 없을 때, 효율이나 속도 처럼 역수가 의미가 있을 때, 각 표본들이 비중이 같을 때 주로 쓰인다. 이런 표본값은 그냥 산술평균을 하면 값이 큰 쪽이 작은 쪽보다 부당하게 높은 비중을 차지하는 것을 시정하고 공정한 평균을 낼 수 있다. 성능이나 효율 속도 시간당 진도 통계 등에 그런 통계가 유효할 때가 많다. 예를 들어 여러 은행의 평균 이자율 이라든지 주식의 평균 주가수익률 이라든지 같은 것을 계산할 때 쓰는게 좋다. 각 표본값들이 비중이 다를 때는 가중조화평균을 사용해야 한다. [[대한민국]]에서 쉽게 볼 수 있는 조화평균으로는 [[한국 영화]] 평점 서비스 [[왓챠]]의 평점이다. 평점이 50개를 넘어가면 '''조화평균'''으로 영화 평점을 구한다. === 멱평균 === {{{+2 [math(\displaystyle M(k)=\left(\frac{1}{n}{\sum_{i=1}^{n}{a_i}^{k}}\right)^{\frac{1}{k}} \left(k \neq 0\right) ,\ M(0)=\lim_{k\to 0}M(k) )]}}} power mean / Generalized mean. 위 세가지 평균을 일반화한 것으로, 산술평균은 k=1인 1차평균, 기하평균은 k=0인 0차평균, 조화평균은 k=-1인 -1차평균이 된다. 2차평균은 [[제곱평균제곱근]]이 된다. 대표적으로 [[표준 편차]]는 [[편차]]의 2차평균이다. 또한, 변량이 모두 양수인 경우 [math(\displaystyle \lim_{k \to \infty} M(k))]는 최댓값, [math(\displaystyle \lim_{k \to -\infty} M(k))]는 최솟값이 된다. == 여담 == 통계학 관련 용어 중에, [[이상점]](outlier)이라는 것이 있다. 일반적으로 평균은 어떤 지표를 확인할 때 유용한 수치로 보이지만 맹점이 하나 있다. 바로 표본 중 극히 일부의 값이 지나치게 높거나 낮으면 평균값이 실제와 달라져 오해를 부를 수 있다는 것이며, 이렇게 다른 표본들과 유독 다른 값을 '''이상점'''이라고 한다. 대표적인 예가 [[정몽준]]이 [[국회의원]]이었을 무렵의 한국 국회의원 재산 평균이다. 2010년대 기준으로 국회의원 평균 재산은 대략 20~30억원대 정도 한다. 근데 문제는 정몽준 의원의 재산이 '''2조원이 넘는다.''' 다른 국회의원들 재산을 '''다 합쳐도 정몽준에 못 미치며,''' 만약 정몽준의 재산을 포함하여 계산하면 평균 값이 갑자기 100억원대로 뛰어버린다(...). 그래서 정몽준 의원의 재산은 이상점으로 간주하고 평균 계산에서 제외한다. [[안철수]] 의원 등 다른 몇 명도 재산이 500억원이 넘어서 역시 평균 계산에서 제외하는데, 그래도 정몽준과는 비교도 안 된다(...). == 관련 문서 == * [[산술·기하 평균 부등식]] [[분류:통계학]]