카이제곱분포

[목차]

== 개요 ==
'''카이제곱분포'''(chi-squared distribution, χ^^2^^ 분포)는 ''k''개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 구식 표현으로 '''카이자승분포'''라고도 한다. 즉 k차원 확률벡터 y ~ N(0, I)에 대해[* 이 때의 0은 영벡터, I는 항등행렬이다.][* 정규분포 확률벡터의 X의 기댓값이 영벡터라는 것은 개별 확률변수의 기댓값이 0이라는 것이다. 그리고 항등행렬은 대각원소가 1이기 때문에 정규분포 확률벡터의 공분산 행렬이 항등행렬이라는 것은 개별 정규분포의 분산이 1이라는 것이다. 즉 개별 정규분포들은 표준정규분포라는 것을 의미한다. 또한 항등행렬의 비대각원소가 0이기 때문에 임의의 두 정규분포의 공분산이 0이라는 것을 의미한다. 그런데 정규분포에서는 공분산이 0이라는 조건과 독립이라는 조건이 동치이다. (일반적으로는 독립이 '공분산 = 0'보다 강한 조건이다.) 이러한 점을 종합하면  y ~ N(0, I)는 '독립적인 표준정규분포들을 모은 벡터'를 의미한다는 것을 알 수 있다.]

[math( χ^2 = y^Ty)]

가 카이제곱분포이다. [[χ]]는 [[그리스 문자]] [[카이]](chi)이다.

검정통계량이 카이제곱분포를 따른다면 카이제곱분포를 사용해서 가설검정을 하면 된다. 귀무가설 하에서의 검정통계량이 카이제곱분포를 따를 때 검정통계치가 카이제곱분포 하에서 일어나기 어려운 일이면 귀무가설을 기각하고, 충분히 일어날 수 있는 일이면 귀무가설을 기각하지 않는다. 이 때 일어날 법한 일인지, 희귀한 경우인지를 판단하는 기준은 유의수준과 p-값이다. 

입문 수준의 통계학이나 학부 사회조사방법론에서는 카이-제곱 분포를 [[σ]]^^2^^을 구할 때 사용하여 모분산 검정, 적합도 검정, 독립성/동질성 검정 등에 사용한다. [[귀무 가설]] H,,0,,는 σ^^2^^=1같은 것이고, [[대립 가설]] H,,1,,은 σ^^2^^≠1같은 것이다. 또는 H,,0,,는 μ,,1,,=μ,,2,,이고, H,,1,,은 μ,,1,,≠μ,,2,,와 같은 것으로 H,,0,,는 "μ,,1,,과 μ,,2,,의 약효가 비슷하다", H,,1,,은 "μ,,1,,과 μ,,2,,의 약효에 차이가 있다"와 같은 것이다.

"남성과 여성, 성별로 보수 성향과 진보 성향의 비율에 유의한 차이가 있는가" 등의 검증을 할 때 쓸 수 있다. p-값이 0.05 [* 5%가 일반적이긴 하지만 이는 개별 세부전공에 따라 다를 수 있다.] 보다 작으면 유의한 차이가 있다고 생각할 수 있다.

[[z-검정]]은 σ^^2^^을 알 때 [[μ]]를 구하는 것이고, [[t-검정]]은 [[σ]]^^2^^을 모를 때 [[μ]]를 구하는 것이다. [[카이-제곱 검정]]은 σ^^2^^을 구하는 것이고, [[F-검정]]은 [[σ]],,1,,^^2^^ / σ,,2,,^^2^^ 을 구할 때 사용한다.

[[https://www.youtube.com/watch?v=Iffx42lmQD4|수식 없이 설명하는 카이제곱분포]]

[[https://blog.naver.com/stat833/220064862005|엑셀로 카이제곱 검정 (교차분석)]]

[[https://blog.naver.com/leerider/100189714605|카이제곱 검정(Chisquare test)]]

== 카이제곱확률변수 ==
[math(Z_1,\,Z_2,\,\cdots ,\,Z_v)]가 서로 독립인 [math(v)]개의 확률변수이면서 [[표준정규분포]] [math(N(0,1))]을 따른다면

{{{#!wiki style="text-align: center"
[math(U=\displaystyle\sum_{i=1}^v Z_i^2)]}}}
을 [[자유도]]가 [math(v)]인 [math(\chi^2)](카이제곱)확률변수라고 한다.

예를 들어 각 [math(X_i)]가 정규분포 [math(N(\mu, \sigma^2))]을 따르는 [math((X_1,\,X_2,\,\cdots ,\,X_n))]의 확률표본을 표준화하면

{{{#!wiki style="text-align: center"
[math(Z_i=\dfrac{X_i-\mu}\sigma)]}}}
가 되고 모든 [math(Z_i)]의 제곱의 합인 다음 확률변수는 자유도가 [math(v)]인 [math(\chi^2)]분포를 따른다.

{{{#!wiki style="text-align: center"
[math(\displaystyle\sum_{i=1}^v\left(\dfrac{X_i-\mu}{\sigma}\right)^{\!2}\!=\dfrac{\displaystyle\sum_{i=1}^v(X_i-\mu)^2}{\sigma^2})]}}}
[math(\chi^2)]확률변수는 연속확률변수인 표준정규변수의 함수이므로 똑같이 연속확률분포를 따른다. 또한, 제곱의 합으로 정의되기 때문에 항상 0 이상의 값만을 갖는다. 또한, 다음이 성립한다.

{{{#!wiki style="text-align: center"
[math(E(U)=v,\;Var(U)=2v)]}}}
곧, 카이제곱분포는 '''평균이 자유도와 같고, 분산은 자유도의 2배이다.'''
{{{#!folding [증명]
{{{#!wiki style="text-align: center"
[math(\begin{aligned}U&={Z_1}^2+{Z_2}^2+\cdots+{Z_v}^2\\\rightarrow E(U)&=E({Z_1}^2)+E({Z_2}^2)+\cdots+E({Z_v}^2)\end{aligned})]

[math(\begin{aligned}{\rm Var}(Z_i)&=E({Z_i}^2)-[E(Z_i) ]^2\\\rightarrow E({Z_i}^2)&={\rm Var}(Z_i)+[E(Z_i) ]^2\end{aligned})]}}}
[math(Z_i)]는 표준정규분포를 따르므로 [math(Var(Z_i)=1,\,E(Z_i)=0)]이므로

{{{#!wiki style="text-align: center"
[math(\begin{aligned}E(Z_i)&=1+0=1\\\therefore E(U)&=\underbrace{1+1+\cdots+1}_{v\;{\rm times}}=v\end{aligned})]

[math({\rm Var}(U)={\rm Var}({Z_1}^2)+{\rm Var}({Z_2}^2)+\cdots+{\rm Var}({Z_v}^2)=v\cdot{\rm Var}({Z_i}^2))]}}}
또한 [math({\rm Var}({Z_i}^2)=E({Z_i}^4)-[E({Z_i}^2) ]^2)]이고 [math(E({Z_i}^2)=1,\,E({Z_i}^4)=3)]임이 알려져 있으므로[* [math(E({Z_i}^4)=3)]임을 별도로 증명하는 것은 매우 어렵다.]

{{{#!wiki style="text-align: center"
[math({\rm Var}({Z_i}^2)=3-1=2)]
[math(\therefore{\rm Var}(U)=2v)]}}}}}}

== 공식 ==
 * [math(\bar X)]와 [math(s^2)]이 독립이고 [math(X_u\sim N(\mu,\,\sigma^2))]일 때, [math(\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1})]
 즉, 표본분산에 '''상수''' [math((n-1)/\sigma^2)]을 곱한 확률변수는 자유도가 [math(n-1)]인 카이제곱분포를 따른다. 이를 이용하여 표본분산 [math(s^2)]을 가지고 모분산 [math(\sigma^2)]에 대한 가설검정이나 신뢰구간 도출이 가능하다. 바로 이 기능, 표본분산을 보고 모분산을 추측하는 것이 카이제곱분포의 주요한 용도이다.

 {{{#!folding [증명]
이하 [math(\displaystyle\sum_{k=1}^n)]를 [math(\displaystyle\sum)]로 생략하여 쓴다.

||<bgcolor=#fff,#1f2023><table width=100%><tablebordercolor=#fff,#1f2023><:> [math(\begin{aligned}\displaystyle\sum(X_i-\mu)^2&=\sum[(X_i-\bar X)+({\bar X}-\mu) ]^2\\&=\sum(X_i-{\bar X})^2+\sum({\bar X}-\mu)^2+2(\bar X-\mu)\sum(X_i-\bar X)\\&=(n-1)\dfrac{\displaystyle\sum(X_i-{\bar X})^2}{n-1}+n(\bar X-\mu)^2+2(\bar X-\mu)\sum(X_i-\bar X)\\&=(n-1)s^2+n(\bar X-\mu)^2\\(&\because\sum(X_i-\bar X)=0\textsf{\footnotesize{(편차의 합)}}) \end{aligned})]||
양변을 [math(\sigma^2)]으로 나누면

{{{#!wiki style="text-align: center"
[math(\dfrac{\sum(X_i-\mu)^2}{\sigma^2}=\dfrac{(n-1)s^2}{\sigma^2}+\dfrac{n(\bar X-\mu)^2}{\sigma^2})]}}}
여기에서 '''카이제곱분포의 정의에 의하여''' [math(\dfrac{\sum(X_i-\mu)^2}{\sigma^2})]은 자유도가 [math(n)]인 카이제곱분포를 따르고 [math(\dfrac{n(\bar X-\mu)^2}{\sigma^2})]은 자유도가 1인 카이제곱분포를 따르므로 [math(\dfrac{(n-1)s^2}{\sigma^2})]은 자유도가 [math(n-1)]인 카이제곱분포를 따른다.

{{{#!wiki style="text-align: center"
[math(\therefore\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1})]}}}}}}

== [[적률생성함수]] ==
자유도가 [math(v)]인 카이제곱분포의 적률생성함수는 다음과 같다.

{{{#!wiki style="text-align: center"
[math(M(t)=(1-2t)^{-v/2})]}}}
이를 통해 카이제곱분포의 평균과 분산을 다음과 같이 구할 수 있다.

||<bgcolor=#fff,#1f2023><table width=100%><tablebordercolor=#fff,#1f2023><:> [math(\begin{aligned}M'(t)&=-\dfrac{v}2(-2)(1-2t)^{-v/2-1}\quad\rightarrow\quad E(U)=M'(0)=v\\M''(t)&=-\dfrac{v}2(-2)^2\left(-\dfrac{v}{2}-1\right)(1-2t)^{-v/2-2}\quad\rightarrow\quad E(U^2)=M''(0)=v^2+2v\end{aligned})] ||
{{{#!wiki style="text-align: center"
[math(\therefore{\rm Var}(U)=E(U^2)-\{E(U)\}^2=2v)]}}}

== 활용 ==
정규분포의 확률변수를 '''제곱'''한 값에 대한 확률을 구할 때 요긴하게 쓴다.

||<tablewidth=100%>'''[문제]'''
----
[math(X\sim N(4,\,9))]일 때, [math(P[-11.95<X^2-8X<10.1])]의 값을 구하시오. ||
 {{{#!folding [풀이]
||<bgcolor=#fff,#1f2023><table width=100%><tablebordercolor=#fff,#1f2023><:> [math(\begin{aligned}P[-11.95<X^2-8X<10.1]&=P[4.05<(X-4)^2<26.1]\\&=P[0.45<\left(\dfrac{X-4}{\sqrt 9}\right)^{\!2}<2.9]\end{aligned})] ||
[math(U=\left(\dfrac{X-4}{\sqrt 9}\right)^{\!2})]로 표준화된 '표준정규변수의 제곱'은 자유도가 1인 카이제곱분포를 따르므로

{{{#!wiki style="text-align: center"
[math(P[0.45<U<2.9]\approx 0.41376)]}}}}}}

== 그래프 ==
|| [[파일:Chi-square_distributionPDF.png|width=400]] || [[파일:800px-Chi-square_distributionCDF.png|width=400]] ||
|| [[확률 밀도 함수]] || [[누적 분포 함수]] ||

매개변수: [[자유도]](자연수) k

카이제곱분포는 기본적으로 좌측에 치우친 분포인데, 자유도가 커질수록 대칭의 분포로 접근한다.

== 범주형 자료 분석 ==
[[범주형 자료]] 분석(categorical data analysis)에 쓴다. 
아래에 제시된 범주형 자료 분석의 검정통계량을 유도하기 위한 가정이 깨지는 경우가 많기 때문에 공부를 계속하다 보면 아래의 테크닉을 사용하는 빈도가 줄어든다. 하지만 통계학과 고학년이나 통계학과 및 다른 학과 대학원 레벨의 범주형 자료분석을 공부하려면 학부 회귀분석, 수리통계학에 대한 지식, 간단한 수학 테크닉이 기본적으로 필요하기 때문에 ~~학부 수준에서도 일반화 선형모형이 나온다~~ 공부를 계속할 것이 아니라면 아래의 방법으로도 충분하다. 

=== 적합도 검정 ===
적합도 검정(goodness-of-fit test)은 관측 결과가 특정한 분포로부터의 관측값인지를 [[검정]]한다. 예를 들어, [[멘델]]의 이론에 의하면 노란색 완두와 녹색 완두가 3:1로 나와야 한다. 교배 실험 결과 노란색 6,022개, 녹색 2,001개, 전체 8,023개로 나왔다면 이 실험 결과는 이론과 일치하는가 어긋나는가를 조사한다.

=== 동질성 검정 ===
동질성 검정(test of homogeneity)은 두 집단의 분포가 동일한지를 검정한다. 예를 들어, 남학생과 여학생의 성별에 따라 [[물리학]], [[화학]], [[생물학]]에 대한 선호도가 같은가 다른가를 검증하는데 사용할 수 있다.

=== 독립성 검정 ===
독립성 검정(test of independent)은 두 [[변수]] 사이에 관계가 있는지를 확인한다. 예를 들어, [[성별]]이 특정 개인의 [[진보]]도([[보수]]도)에 영향을 끼치는지 검정한다.

== 자유도 ==
일반적으로 카이제곱분포의 자유도는 정의 '독립적인 표준정규분포의 제곱 합'에서 표준정규분포의 개수이다.

사회과학의 학부수준의 조사방법론이나 통계학 개론에서 배우는 카이제곱 검정에서는 자료행렬의 [[행(명사)|행]](row)과 [[열(列)|열]](column)의 숫자에서 1씩을 뺀 후 그 숫자를 곱함으로써, 즉, df = (r-1)(c-1)을 통해 자유도를 구할 수 있다. 이 때 하나의 행만 있을 경우 열의 숫자에서 1을 뺀 숫자가 자유도이다.

학부 선형대수학과 수리통계학 이상의 과정에서는 다변량정규분포를 따르는 확률벡터의 이차형식(quadratic form)으로 카이제곱분포를 나타내는 경우가 많다. 이 때는 일정한 행렬의 계수(rank)를 구함으로써 자유도를 구할 수 있다. 대부분의 경우 멱등행렬(idempotent)의 계수를 구하게 되는데, 멱등행렬에서는 대각합(trace)와 계수가 같다는 성질을 이용하면 손쉽게 자유도를 구할 수 있다. 

== 기타 ==
예전에 카이 제곱 분포나 F 분포에 양방향 검정이 불가능하다는 설명도 있었다. 일반적으로는 카이제곱분포나 F분포에서 양방향 검정을 할 일이 딱히 없기는 하다. 하지만 이것이 '카이 제곱 분포나 F 분포에서 양방향 검정을 해서는 안된다'는 자명한 진리인 것은 아니다. 단일방향 검정을 할지 양방향 검정을 할지에 대해 알고 싶다면 최강기각력 검정을 공부해보자.

카이제곱분포의 일반화된 버전으로 비중심 카이제곱분포가 있다. 이 경우에는 확률변수의 기댓값이 0이라는 조건이 없어도 된다. 분산이 1이 아니더라도 확률변수들이 독립적이기만 하면 적절한 선형변환을 통해 카이제곱분포를 따르는 확률변수를 만들 수 있다. 또한 표준정규분포를 따르지 않는 확률변수들도 정규분포를 따른다면 적절한 선형변환을 통해서 비중심카이제곱분포를 따르는 확률변수를 만들 수 있다.

t 분포와 F 분포는 카이제곱 분포와 표준정규분포를 이용해 정의한다. 따라서 카이제곱분포를 다루는 연습을 많이 해두면 t 분포와 F 분포를 좀 더 쉽고 깊게 이해할 수 있다. ~~물론 어디까지나 본인이 흥미가 있거나, 교수님이 과제와 시험에 증명문제를 출제할 때에나 해당되는 일이다. 검정 방법을 직관적으로 이해하고, 공식을 외우고, 컴퓨터로 결과만 낼거면 필요없다.~~

== 여담 ==
사회과학 조사방법론 책에서는 흔히 O는 관찰 빈도, E는 기대 빈도에 대해

[math( χ^2 = \sum {(O-E)^2 \over E} )]

와 같은 표현을 쓴다. 그러나 이러한 표현은 정확한 표현이 아니다. 카이제곱분포는 일반적으로 앞서 말한 것처럼 '독립적인 표준정규분포 제곱의 합'으로 정의하거나 '감마분포의 특이한 경우'로 정의한다. 그런데 [math( χ^2 = \sum {(O-E)^2 \over E} )]는 마치 카이제곱분포의 정의가 [math( \sum {(O-E)^2 \over E} )]인 것으로 사람을 오도할 수 있기 때문이다. 이러한 점에서 볼 때 좀 더 정확한 표현은 귀무가설 하에서의 검정통계량 

[math( \sum {(O-E)^2 \over E})] ~ [math( χ^2(k) )] , (단 k는 자유도)이다.

== 관련 문서 ==
 * [[확률 분포]]
 * [[정규 분포]]
 * [[표준 정규 분포]](z-분포)
 * [[스튜던츠 t-분포]](t-분포)
 * [[F-분포]]
 * [[Microsoft Excel/함수 목록]]: 간단한 [[통계학]] 계산은 [[엑셀]]이나 [[Calc]]로 할 수 있다.

[[분류:통계학]]