[[분류:통계학]][[분류:계량경제이론]][[분류:두문자어]] Ordinary Least Squares. 한국어: 최소자승법, 최소이승법, 최소제곱법. 현재 최소제곱법으로 명칭이 변경되었다. [목차] == 개요 == 주로 통계에 대해 처음 배울 때 접하는 모형으로 매우 단순하지만 많은 곳에서 쓰인다. 이를 가장 단순히 써보면 다음과 같다. Y=aX+b 어떤 종속[[변수]] Y가 어떤 독립변수(들) X들의 선형 결합을 통해 결정된다고 보는 것이다. 가우스-마르코브 조건(Gauss-Markov assumption)을 만족시킬 때, BLUE(best linear unbiased estimator, 최량선형[[불편추정량]])임을 증명할 수 있다. BLUE는 불편성(unbiased) 기댓값이 모수와 일치, 즉 모형을 통해 추정한 값들의 평균이 참값임)을 갖추고 가장 효율적인(통계학이나 계량경제학에서 효율성은 분산이 작다는 뜻) 추정방법이다. == 가우스-마르코브 조건 == ==== 선형성(Linear) ==== 실제 추정하고자 하는 현실이 선형적인 모델로 설명될 수 있어야 할 것. 즉 독립변수들에 대해 편미분을 하면 상수가 나와야 함. 이 조건을 만족하지 못하면 최소자승법으로 추정한 모델은 기본적으로 잘못된, 의미 없는 추정이 된다. ==== 오차항의 평균은 0(exogeniety) ==== ==== 동분산성(homoskedasticity) ==== 어느 시점에서 관측하더라도 동일한 분산이 나올 것. 이를 만족하지 못하는 경우를 가리켜 heteroskedasticity(이분산)이 존재한다고 하며, 이 경우 추정된 값들의 유의성을 담보할 수 없다. ==== 오차항은 서로 독립 ==== 어떤 시점의 오차항과 다른 시점의 오차항 사이의 공분산이 0일 것. 이를 만족하지 못할 경우 공간상관성이나(패널/횡단면) 자기상관성(시계열)이 존재하며, OLS는 더 이상 가장 좋은 추정방법이 되지 못한다. ==== 독립변수는 주어진 것으로 가정 ==== 1. 주어진 것이라는 표현은 비확률변수라는 것이지 상수라는 뜻은 아니다. 비확률변수는 기댓값, 분산 등 적률의 계산에서 상수처럼 다룰 수는 있지만 엄연히 변수이지 상수는 아니다. 2. 사회 자료는 비확률변수라는 조건도 너무 강하기 때문에[* 2100년 가계소득을 독립변수로 한다고 했을 때, 이 독립변수는 2100년 가계소득 자료가 조사되고 취합되어 발표되기 전까지는 알 수가 없다. 즉 확률변수이다.] '독립변수는 확률변수이다. 그리고 오차항에 대해 독립이다.'라는 완화된 조건을 사용하기도 한다. 3. 사회 자료는 위의 조건 마저도 강하기 어기는 경우가 많기 때문에 더 완화된 조건인 '조건부 0' 가정을 사용하는 경우가 더 일반적이다. 즉 독립변수 행렬 X와 오차항 벡터 e에 대해 "E(e|X) = 0" 가정을 사용한다. 4. 때로는 위의 3번 가정도 깨져서 각각의 독립변수와 오차항의 상관계수가 0이라는 조건을 사용해야 하는 경우도 있다. 즉 cov(e,x) = 0을 사용한다. 2.0.1~ 2.0.4번 조건을 만족하고 2.0.5의 3번 조건까지만 만족한다면 OLS 추정량은 BLUE(Best Linear Unbiased Estimator)이다. 그러나 5.3이 만족되지 않고 5.4가 만족되면 이 때부터는 BLUE가 아니다. 이 떄부터는 추정량에 bias가 존재한다. 다만 5.4가 만족된다면 OLS 추정량은 일치추정량(consistent estimator)이다. 즉 편의가 있지만 대표본 하에서는 추정량이 참값으로 확률수렴한다. == GLS == 오차항에 이분산성이나 자기상관성이 있는 경우에 대해서는 OLS(통상최소제곱)가 아니라 GLS(Generalized Least Squares, 일반화 최소제곱)를 사용할 수 있다. 오차항의 이분산 구조나 자기상관 구조를 활용 안다면 이를 상쇄할 수 있는 함수를 사용하는 최소제곱방법이다. OLS에서는 오차항의 크기 만큼 가중치가 주어지는데, GLS에서는 오차항의 이분산성이나 자기상관성을 상쇄할 수 있도록 보정된 가중치를 부여하여 최소제곱 추정을 한다고 생각하면 편하다. 그런데 선형확률모형 같은 특별한 케이스가 아닌 이상에야 오차항의 함수 구조를 안다고 조건 자체가 비현실적이다. 따라서 요즘에는 GLS를 잘 사용하지 않고 이분산성이나 자기상관성에 대해서도 강건한(robust) 표준오차 추정량을 사용하는 경우가 일반적이다. 다만 잔차의 그래프나 플롯을 그렸을 때 주어진 자료의 이분산성이나 자기상관성이 너무 강할 때에는 GLS와 robust 추정을 함께 쓰기도 한다. ~~애매하면 robust를 쓰자 ~~