큰 수의 법칙

[include(틀:이산수학·수리논리학)]
[목차]
== 본문 ==
law of large numbers(LLN)
대수(大數)의 법칙이라고도 한다. 단 '대수의 법칙(大数の法則)'이란 말은 일본에서 번역한 용어로 한국인에게는 직관적으로 와닿지 않는 측면도 있고, [[대수학]]의 대수(代數)와도 헷갈리기에 점차 '큰 수의 법칙'이라는 표현을 사용하는 추세이다. 물론 나이 많은 사람들은 보통 '대수의 법칙'이라는 표현을 더 많이 쓰는 편.
>어떤 시행에서 사건 A가 일어날 수학적 확률이 [math(p)]이고 [math(n)]번의 독립시행에서 사건 A가 r번 일어난다고 할때 임의의 [math(\epsilon>0)]에 대하여 [math(\displaystyle \lim_{n\rightarrow\infty} \operatorname{P}\left(\left| \frac{r}{n} -p \right| <\epsilon \right)=1 )]이다.

>서로 독립인 확률변수 [math(X_1, X_2, \cdots , X_n, \cdots )]이 평균이 [math(\mu)]인 동일한 확률분포를 따를 때,
> (1) (약한 큰 수의 법칙)임의의 [math(\epsilon>0)]에 대하여 [math(\displaystyle \lim_{n\rightarrow\infty} \operatorname{P}\left(\left| \frac{1}{n}\sum_{k=1}^{n}X_k  -\mu \right| <\epsilon \right)=1 )]이다.
> (2) (강한 큰 수의 법칙) [math( \displaystyle \operatorname{P} \left( \lim_{n\rightarrow\infty} \frac{1}{n}\sum_{k=1}^{n}X_k = \mu \right) = 1 )]이다.

수학적으로 이 둘은 실제로 다른 법칙이고, 실제로 강법칙이 훨씬 증명하기 어렵다. 다만 그 정확한 차이를 설명하는 것은 대학원 수준의 [[확률론]] 지식이 필요하고, 일상생활에서의 의미는 거의 차이가 없다고 보아도 무방하다.

간단히 요약하자면, 시행 횟수가 늘어날 수록 측정한 실제 확률이 수학적으로 예측된 확률에 [[수렴]]한다는 법칙이다. 단순해 보이지만, [[수학]]적 확률과 [[통계]]적 확률을 실제적으로 이어주는 굉장히 중요한 법칙이다.[* 별 거 아닌 것 같지만 생각보다 중요한 것이, 귀납적 증명 방법에 타당성을 제시해 줄 수 있다.] 현대 과학에 있어 [[뉴턴의 운동법칙]], [[질량 보존의 법칙]]만큼이나 구속력, 공신력이 강한 법칙이다. 어쩌면 저 2개의 법칙과 함께 현대 자연과학의 근간 중 하나로 봐도 손색없을 정도로 중요한 법칙이지만, 특정인이 발견해낸 것이 아니기에 잘 알려지지 않은 법칙이다.

간단하게 생각해보자. 정상적인 주사위를 던질 경우 각각의 숫자가 나올 확률은 1/6이다. 따라서, 주사위를 6번을 던진다면 모든 숫자가 대충 1번씩은 나와야 한다. 그러나 실제로는 같은 숫자가 중복으로 나와서 1만 6번이 나올 수도 있다. 그렇다고 해서 이 주사위를 던졌을 때 1이 나올 확률은 100%, 나머지 숫자는 0% 라고 말 할 수는 없는 것이다. '''정상적인 주사위'''니까. 따라서 처음 6번 동안 1이 스트레이트로 나온건 운이 좋았다 치고, 이 주사위를 60번, 600번, 6만번을 던지면 처음엔 100%였던 1이 나올 확률이 다른 숫자들이 나오면서 점점 줄어들게 되고, 다른 숫자들도 처음엔 0%였지만 점점 걸려 나오는 숫자가 많아지면서 나올 확률이 점점 올라서 종국엔 모든 수에 대한 확률이 '''거의''' 16.67%(=1/6)이 될 것이다. 물론 실제로는 모두가 16.67%는 아니고 어떤 건 16.8%, 어떤 건 17%, 어떤 건 16.1% 등 들쭉날쭉 할 수 있고, 사람이 직접 던진다면 이정도면 만족할 만한 결과다. 여기서 컴퓨터나 시뮬레이터의 힘을 빌려 주사위를 6억번을 던진다면? 각각의 수에 대한 확률은 6번 던진 것에 비해 1/6에 가까울 것이다. 다시 6조번을 던진다면? 각 수에 대한 확률은 6억번을 던진 것에 비해 1/6에 더 가까워질 것이다. 결과적으로 시행의 횟수를 늘리면 늘릴수록 각 수에 대한 확률이 1/6로 수렴할 확률이 커져서 1에 가까워져 간다는 것이 큰 수의 법칙의 원리이다.

이 법칙이 현실에서 가장 잘 쓰이는 곳이 바로 [[도박]]. 대표적인 예로 [[카지노]]에서 하우스 측이 돈을 벌어들이는 것도 이 법칙을 적절히 활용한 것이다. [[룰렛]] 게임을 예로 들자면, 룰렛에서 '검정 · 빨강', '홀수 · 짝수'에 돈을 걸어 성공한 경우 2배의 금액을 받는다. 수는 당연히 홀수 아니면 짝수이고 색도 검은색 아니면 빨간색밖에 없으므로 2배의 금액이면 기대값이 1일 것 같으나 실제로는 빨강색도 검정색도 아니고 홀수도 짝수도 아닌 것으로 취급되는 0과 00이 있어 1에 미치지 못한다. 간단히 말하자면 '''이길 확률이 50%일 것 같은데 실제로는 47% 정도의 승률'''이라는 것. 카지노 측은 바로 여기서 큰 수의 법칙을 활용하는 것이다. 개개인의 고객이 실제로 행한 시행에서는 편차가 발생해, 돈을 따는 사람과 잃는 사람이 생겨나지만 그 모든 고객을 상대하는 카지노 입장에서는 결과적으로 이득을 본다는 사실은 변하지 않는다. 즉 고객 입장에서의 환수율이 100%에서 아주 조금만 낮아도 수천 수만 명을 상대하는 카지노 측이 결과적으로 이득을 볼 수 밖에 없다. 물론 노골적으로 심하게 승률이 낮으면 아예 손님이 모이지 않으므로 승률은 미묘하게 높게 해놓고 많은 게임, 또는 도박에 거는 금액을 높여 결론적으로 벌어들이는 양을 늘린다.

도박에서 이와 연결되는 표현으로 일명 '초보자의 행운[* 초심자의 행운이라고도 한다.]'(beginner's luck)이 있다. 도박에 대해 익숙하지 않은 초보자가 초반에는 우연히 행운으로 고수보다 더 큰 이득을 얻을 수 있다는 것이다. 이는 아직 통계적 확률로 수렴하지 않은 상태라 가능한 것. 그러나 장기적으로 보면 결국 승률이 실력에 따라 수렴해서 결과적으로는 고수보다 이득이 낮게 된다.

[[수능]]이나 과거 [[삼성그룹]] [[SSAT]]가 공정하다는 소리를 듣는 이유가 모집단이 그만큼 많아서며 예외는 모집단을 줄이는 효과가 있다. 출제과정의 유출 등은 별론이겠지만.

프로야구계의 명언 [[내려갈 팀은 내려간다]]는 이 큰 수의 법칙을 반영한 ~~믿기 힘들겠지만 진짜로~~'''과학적인 발언'''이다. 초반에는 전력이 약한 팀도 높은 승률을 기록할 수 있지만 경기 수가 많아질수록 큰 수의 법칙에 따라 원래 실력대로 수렴하여 하위권으로 내려가게 된다. ~~역시 [[LG 트윈스|LG]]의 DTD는 과학이다~~ [[던파확률의 법칙]]이나 [[천봉]]의 조작 논란 역시 '큰 수의 법칙'을 무시해서 생긴 근거 없는 속설일 뿐이며, 로또 명당 같은 복권 명당도 따지고 보면 '''사람 많이 몰리니까''' 계속 명당 자리를 지키고 있는 것일(=당첨될 "상대적" 확률은 다른 집과 똑같은데도 사람이 많이 몰리니까 당첨된 '''절대적''' 횟수가 많아졌을) 뿐이다. [[버뮤다 삼각지대]]에서 사고가 많이 생긴다는 이야기도 결국에는 연근해와 적당히 떨어져 있어 사고가 발생했을 때 적절한 타이밍에 구조를 받는 것이 어렵다는 점과, 그곳을 통과하는 선박·항공기의 대수가 원체 많아서 생기는 큰 수의 법칙에 기인했다고 보는 것이 타당하다.

또한 큰 수의 법칙이 아무리 법칙이라는 확실한 것이라 해도 함부로 남용해서 적용하면 안된다. 그 큰 이유는 p 값 때문이다. 이를테면 주사위의 경우 수학적으로 어떤 한 면이 나올 수 있는 확실한 1/6 이라는 확률 p 값이 있고 가위바위보 싸움의 이기고 지고 비길수 있는 1/3 확률이 있으며 이 확률값이 재현되기까지 40번 시도횟수만으로도 90%가 넘는 실현확률이 나와 법칙증명에 큰 문제가 없지만 p 값이 틀렸다면? 지금 든 주사위나 가위바위보 같은 것이 아닌 더 복잡하고 변수가 많으며 표본이 부족한 무언가를 섣불리 획일화시켜서 p 값을 재현해 그것을 큰 수의 법칙에 적용시키면 큰 오류가 발생한다. 이게 왜 '''큰 수'''의 법칙인지 생각해보자. 고작 40번 50번으로 해결될 문제보단 해결이 안 될 문제가 훨씬 많다.
== 작은 수의 법칙 ==
때문에 책 '이공계의 뇌로 산다'에서 소개되길 [[노벨경제학상]] 수상자 [[대니얼 카너먼]]은 우스갯소리로 이러한 불충분한 표본으로 잘못 만들어진 p 값으로 인한 잘못된 큰 수의 법칙을 '작은 수의 법칙'이라고 얘기했다고 한다. 즉 실제 있는 법칙은 아니다. 또한 책에 소개된 잘못된 p값 예시로 [[V2(로켓)|V2]]의 런던폭격분포를 예로 들었다. 말인즉 이미 폭격이 된 결과물만 가지고 일정한 폭격분포를 표본으로 어느 지역에 어느 정도 폭격이 될 p확률값을 구할 수 있지만 V2 미사일은 그 p값확률은 커녕 어디로 날아갈지 도통 알기 힘든 매우 정밀도가 낮은 물건으로 이미 폭격된 지역표본의 p 값은 큰 의미가 없었다는 것. 쏘면 쏠 수록 p 값이 변할 수밖에 없는 물건이었다는 것이다.
== 중심 극한 정리와의 차이 ==
많은 사람들이 혼동하는 내용인데, 큰 수의 법칙은 이 반복시행의 결과가 [[정규 분포]] 형태를 띤다는 [[중심 극한 정리]](Central Limit Theorem)와는 다른 내용이다. 큰 수의 법칙 어디에도 r/n과 p의 차이가 정규분포를 따른다는 내용은 없기 때문. 어찌 보면 이 중심극한정리는 큰 수의 법칙의 '강화판'이라고 생각할 수 있다.
== 관련 문서 ==
 * [[강팀의 방정식]]
 * [[내려갈 팀은 내려간다]]
 * [[소포모어 징크스]]
 * [[던파확률의 법칙]]
 * ~~[[도박사의 오류]]~~
 * ~~[[과금전사]]~~
 * [[규모의 경제]]
 * [[빅데이터]]
[[분류:수학 용어]][[분류:통계학]][[분류:확률론]]