결정계수

[include(틀:통계학)]
[목차]
== 개요 ==
'''결정계수(coefficient of determination)'''R^{2}=1-SSE/SST로 정의된다. 특히 최소자승법을 이용한 선형회귀분석에서 종속변수의  맞춤 값(fitted value)과 실제 값(actual value)의 피어슨 상관계수를 제곱한 값이 결정계수와 같아져, 통계학에서 주로 사용된다.[[https://rython.tistory.com/17|증명]] 이 때문에 선형 [[회귀 분석]]에서 결정 계수는 "전체 제곱합 중에서 회귀 제곱합이 설명하는 비중=SSR/SST", 즉 "모형의 설명력"으로 계산될 수 있다. 이때 총 제곱합(total sum of square)이 SST, 회귀 제곱합(regression sum of square)이 SSR, 잔차 제곱합(residual sum of square)이 SSE이다.

== 상세 ==
 R^^2^^의 계산에 사용되는 상관계수는 선형회귀분석에서 종속변수의 맞춤 값(fitted value)과 실제 값(actual value)의 상관계수이다. 선형회귀분석 연구되던 초창기에는 모형의 적합도를 측정하기 위한 측도(measure)로 종속변수 맞춤값과 실제 값의 상관계수를 사용했다. 그러던 중 비음(nonnegative) 측도를 만들기 위해 상관계수의 제곱을 사용했는데, 이 값의 특성을 연구해보니 종속변수의 전체 변동에서 회귀모형이 설명할 수 있는 비율을 나타내는 것이라는 결과가 나왔기 때문에 이 값을 모형 설명력의 측도로 많이 사용한다. 좀 더 구체적으로 설명하면 선형회귀모형에서 맞춤 값(fitted value)과 실제 값(actual value)의 상관계수를 구하고 이를 제곱하면 (SSR*SST)/SST^^2^^ 이 나오고 분자 분모의 SST를 약분하면 흔히 보는 R^^2^^가 나온다. [[https://rython.tistory.com/17|증명]]

R^^2^^의 변종으로 조정된 R^^2^^(adjusted R^^2^^), 예측 R^^2^^(predicted R^^2^^)등이 있다.
== 용도 ==
종속변수에 대한 모형의 설명력을 나타내는 측도로 사용된다. 조정된 R^^2^^, AIC(Akaike information criterion), BIC(Bayes information criterion) 등과 함께 모형선택에서의 대표적인 기준 측도이다.

라그랑지 승수 검정(LM test)의 검정통계량이 대부분 관측치 수(표본의 수)*결정계수, 즉 nR^^2^^다. 대표적인 검정으로 이분산 검정에서의 Breusch–Pagan test, 자기상관에서의 Breusch–Godfrey test가 있다. R^^2^^ 자체가 이론통계학적으로 좋은 성질을 많이 갖고 있기 때문에 이 외에도 각종 test에서 많이 사용된다.

== 중요도? ==
R^^2^^가 크면 좋기는 하다. 커서 나쁠 건 없다. 하지만 크다고 무조건 좋은 것도 아니고 작다고 나쁜 것도 아니다. R^^2^^가 아무리 높아도 시계열모형에서의 허구적 회귀와 같은 경우라면 아무 의미가 없다.

선형모형의 목적이 종속변수의 예측에 있는 것이라면 높은 것이 좋다. R^^2^^자체가 선형모형에서 종속변수의 움직임을 얼마나 잘 나타내는지를 보여주는 지표이기 때문이다. 이 때에는 R^^2^^와 예측 R^^2^^(predicted R^^2^^)를 함께 쓰는 경우가 많다. 예를 들어 선형모형으로 주가예측을 한다거나, 제품을 생산할 때에는 R^^2^^가 커야한다. 

반면 목적이 변수간 관계 추정에 있다면 R^^2^^가 낮아도 큰 상관은 없다. 선형모형에서 고전적 가정들(등분산, 자기상관성 없음, 내생성 없음 등)이 성립하면 변수간 관계를 추정하는데에는 전혀 문제가 없기 때문이다. 사회과학 모형은 시계열, 패널 데이터가 아닌 이상 결정계수가 낮을 가능성이 큰데, 모형을 잘 설정하고 적절한 추정방법을 사용했다면 R^^2^^가 작더라도 낙담할 필요없다. 
== 관련 문서 ==
 * [[회귀 분석]]
 * [[상관관계와 인과관계]]
 * [[상관 계수]]

[[분류:통계학 용어]]