확률분포

[include(틀:이산수학·수리논리학)]
[include(틀:통계학)]
[목차]
{{{+2 [[確]][[率]][[分]][[布]] / probability distribution}}}
== 개념 ==
시행에서 [[확률 변수]](random variable)가 어떤 값을 가질지에 대한 [[확률]]을 나타낸다. [[확률 변수]]가 취하는 값들의 집합이 자연수의 부분 집합과 일대일 대응 된다면 [[이산 확률 분포]], 확률 변수가 취하는 값들의 집합이 [[실수(수학)|실수]]의 구간을 이루면 [[연속 확률 분포]]가 된다.

== 확률 분포의 종류 ==
확률 변수의 종류에 따라 크게 [[이산 확률 분포]]와 [[연속 확률 분포]]로 나뉜다.

=== 이산 확률 분포 ===
[[이산 확률 분포]](discrete probability distribution)

[[확률 질량 함수]](probability mass function)

==== 이항 분포 ====
[[이항 분포]] binomial distribution
[math(n)]번의 독립 베르누이 시행(한 번의 시행에서 결과가 성공 또는 실패로 결정되는 시행)에서 성공 확률이 [math(p)]일 때의 확률 분포이다. [math(n)]번의 시행 중 성공 횟수가 [math(x)]회 일 때,

[math( b(x;n,p) = \begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x} )]로 표현한다.

[math(n)]이 커지면 이항분포는 폭이 점점 좁아지며[* Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p230] 정규분포에 근접해 간다. [math(p)]가 0.5에 근접해 가도 마찬가지이다. 보통 np≥10이면 정규분포라고 쳐준다. 고등학교에서는 이항분포를 이루는 각 값들의 평균,표준편차를 구하는 법을 알려주는데[* 2015 개정교육과정에서는 증명을 생략한다], 보통 (평균)[math(=np)]이고, (표준편차)[math(=\sqrt{np(1-p)})]이다.[* Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p239]

참고로 n=1 일때의 이항분포를 베르누이 분포라고 한다.

==== [[푸아송 분포]] ====
[include(틀:상세 내용, 문서명=푸아송 분포)]
==== 기하 분포 ====
[[기하 분포]] geometric distribution

성공 확률이 p인 독립 베르누이 시행에서 최초로 성공인 시행이 나오기까지 시도한 횟수를 확률변수로 갖는 확률분포이며,
[math( g(x:p) = (1-p)^{x-1}p )]
로 표현한다.

기하분포의 평균은 [math(1 \over p)], 분산은 [math({1-p} \over {p^2})]이다. 즉, 성공 확률이 [math(1 \over n)]인 아이템 뽑기 게임에서 아이템을 하나 획득하기 위해서는 대략 [math(n)]회 정도의 시도가 필요하다고 예상할 수 있다는 것을 의미한다.

==== 초기하 분포 ====
[[초기하 분포]] hypergeometric distribution

모집단에서 r개를 비복원추출 하려 할 때, 모집단에서 추출한 n개 중 추출하려던 것이 x개 일 확률변수를 나타내는 확률분포이다.

==== 음이항 분포 ====
"[[음이항 분포]]" 또는 "[[음의 이항 분포]]"는 성공 확률이 p인 독립 베르누이 시행에서 x회 동안 k번 성공할 때의 확률변수를 나타내는 확률분포이며,

[math( b^{-1}(x;k,p) = \begin{pmatrix}x-1\\k-1\end{pmatrix}p^k(1-p)^{x-k} )]로 표현한다.

=== 연속 확률 분포 ===
 [[연속 확률 분포]](continuous probability distribution)
 [[확률 밀도 함수]](probability density function)

  * [[표본 분포]](sampling distribution)
  * [[정규 분포]](normal distribution)
  * [[표준 정규 분포]](z-분포, standard normal distribution)
  * [[스튜던트 t-분포]](t-분포, Student's t-distribution)
  * [[F-분포]](F-distribution)
  * [[카이-제곱 분포]](χ2 분포, chi-squared distribution)
  * [[지수 분포]]: 보통 [[자연로그의 밑|자연로그의 밑 [math(e)]]]을 취하는 함수를 매클로린 급수를 적용해서 사용한다. 그런 경우에는 평균과 표준편차가 x로 같다.
  * 레일리 분포
  * 라이시안 분포
  * 감마 분포
  * 파레토 분포

== 확률 분포의 기댓값과 분산 ==
[[기댓값]]이란 실험을 반복시행 했을 때, 평균적으로 기대할 수 있는 값이다. 확률 변수 X의 기대값은 E(X)라고 표기하고 다음과 같이 계산한다. 다만 아래 사항은 [[확률 질량 함수]]에 사용하는 계산법이니 [[확률 밀도 함수]] 상대로는 적분을 사용하도록 하자.
[math(\displaystyle \text{E}\left(X\right)=\sum_{i}{x_i P\left(X=x_i\right)})]

[[분산]]이란 확률 변수가 취하는 값들이 기대치로부터 얼마나 흩어져 있는가를 나타낸다. 일반적으로 V(X)로 표기하며 다음과 같이 계산한다.
[math(\displaystyle \text{V}\left(X\right)=\sum_{i}{\left(x_i-m\right)^2P\left(X=x_i\right)}=\text{E}\left(X^2\right)-\left\{\text{E}\left(X\right)\right\}^2\,\,\,\left(m=\text{E}\left(X\right)\right))]

[[표준 편차]]는 분산에 [[제곱근]]을 하여 계산한다.
[math(\sigma \left(X\right)=\sqrt {\text{V}\left(X\right)})]

분산과 표준 편차 모두 확률 변수 값들이 [[기대치]]에서 흩어진 정도를 나타내기 때문에 '''[[산포도]]'''라고 총칭하기도 한다.
== 누적 분포 함수 ==
[[누적 분포 함수]](cumulative distribution function, cdf)

어떤 확률 분포에 대하여 [[확률 변수]]가 특정 값보다 작거나 같은 [[확률]]을 의미한다.
[[분류:이산수학]][[분류:확률론]][[분류:나무위키 수학 프로젝트]]