[include(틀:이산수학·수리논리학)] [include(틀:통계학)] [목차] == 개요 == {{{+1 conditional probability ・ [[條]][[件]][[附]][[確]][[率]]}}} '''조건부 확률'''은 사건 B가 일어나는 경우에 사건 A가 일어날 [[확률]]을 말한다. 사건 B가 일어나는 경우에 사건 A가 일어날 확률은 [math(P(A \vert B))]로 표기한다. 사건 B가 발생했을 때 사건 A가 발생할 확률은 사건 B의 영향을 받아 변하게 된다. == 예시 == 아래는 [[독학학위제]] 심리통계 문제 예시이다. 전체 중고차 중 70%가 에어컨이 있고 40%가 CD 플레이어가 있다고 하자. 전체 중고차 중 90%가 둘 중 적어도 하나는 가지고 있다고 할 때, 에어컨이 없는 중고차 중 CD 플레이어도 없을 [[확률]]은? [math(P(B))] = 에어컨이 없을 확률 = 0.3 [math(P(A))] = CD 플레이어가 없을 확률 = 0.6 [math(P(A\cap B))] = 에어컨과 CD 플레이어가 모두 없을 확률 = 0.1 [math(P(A|B))] = [math(P(A\cap B))]/[math(P(B))] = 0.1/0.3 = 1/3 == 조건부확률의 함정 == 조건부확률은 그 특성상 의미를 오해하기 쉽기 때문에[* 특히 후술할 예시와 같이 P(A|B)와 P(B|A)가 같다고 착각하는 경우가 많다.] 통계로 드러나는 수치는 사실인데 독자가 잘못 받아들여서 의도치 않게 [[통계의 함정]]에 걸리기도 한다. 유명한 예시 중의 하나가 [[몬티 홀 문제]]. 발터 크래머의 책 <확률게임>에서는 다음과 같은 예시를 들고 있다. >자동차 사고로 사망한 사람의 40%는 [[안전벨트|안전띠]]를 매지 않았다고 한다. 그런데 뒤집어서 말하면 자동차 사고로 사망한 사람의 60%는 안전띠를 매고도 죽었다는 뜻인데, 그렇다면 안전띠가 더 위험한 것 아닌가? 이 예시에서 말하는 조건부확률의 함정은 해당 통계가 '''자동차 사고로 사망한 사람 중에서''' 안전띠를 맨 사람의 비율이 60%라는 것을 말하고 있는 것을 '''안전띠를 맸을 때''' 자동차 사고로 사망할 확률이 더 높다는 식으로 오해하는 것이다. 두 조건부확률 P(A|B)와 P(B|A)가 서로 다르기 때문에 이런 오류가 발생하는 것. 이제 이 오류를 반박해 보자. 이 오류를 반박하기 위해서는 '전체 운전자 중에서 안전띠를 맨 사람의 비율'이 필요하다. 예컨대 전체 운전자 중에서 95%가 안전띠를 매고 나머지 5%는 안전띠를 매지 않았다고 하자. 또한 전체 운전자 1만 명 중 1명 꼴로 자동차 사고로 사망한다고 가정하자. 운전자가 안전띠를 매는 사건을 A라 하고 운전자가 자동차 사고로 사망하는 사건을 B라고 하면, 위 인용문은 [math(P(A|B)=0.6)]임을 말하고 있는 것이다. 또한 가정으로부터 [math(P(A)=0.95)], [math(P(B)=0.0001)]이다. 그렇다면 안전띠를 맸을 때 자동차 사고로 사망할 확률은 다음과 같이 계산된다. [math(P(B|A)=\frac{P(A\cap B)}{P(A)}=\frac{P(A|B)P(B)}{P(A)}=\frac{0.6\times 0.0001}{0.95}=0.000063)](약 16,000명당 1명꼴) 안전띠를 매지 않았을 때 자동차 사고로 사망할 확률은 다음과 같이 계산된다. [math(P(B|A^C)=\frac{P(A^C\cap B)}{P(A^C)}=\frac{P(A^C|B)P(B)}{P(A^C)}=\frac{0.4\times 0.0001}{0.05}=0.0008)](1,250명당 1명꼴) 즉, 예상했듯이 안전띠를 매지 않은 경우에 자동차 사고로 사망할 확률이 안전띠를 맸을 때보다 10배 이상 큰 것을 알 수 있다. 교과서나 참고서에도 나오는 '어떤 질병을 진단하는 기술의 정확도가 99%인데 실제 병을 앓고 있는 사람은 10만 명에 한 명꼴이라고 한다면, 이 기술로 병을 진단받은 사람 중 실제 병을 앓고 있는 사람의 비율은 몇 %인가?' 같은 문제도 조건부확률의 함정을 잘 보여 준다. 단순히 보면 해당 기술의 정확도가 99%이니 진단을 받은 사람의 99%도 실제로 병을 앓고 있으리라고 생각할 수 있지만 실제로는 진단받은 사람의 극소수만이 진짜로 병을 앓고 있다는 결과가 나온다. 정확도가 99%로 높기는 하지만 병에 걸리지 않은 집단의 크기가 [[넘사벽]]급으로 크기에 그 집단에서 1%만이 오진을 받았어도 오진을 받은 사람의 수는 실제 병을 앓고 있는 사람 수의 1000배나 되기 때문. 이와 비슷한 것으로 '검사의 오류(Prosecutor's fallacy)'가 있다. 그것의 단적인 사례가 다름아닌 [[O. J. 심슨 사건]]이다. 당시 검사는 "가정폭력을 당한 '''전체 여성''' 중 1/2500만이 남편에 의해 죽었다"고 주장했으나, 실제로는 "'''살해당한 여성 중''' 가정폭력의 전력이 있는 남편에 의해 살해되었을 확률은 약 90%이다"였다. 여기서 검사의 오류가 드러나는데, 피해자인 심슨의 아내는 '''가정폭력 뿐만 아니라 심슨에 의해 가정폭력을 당한 상황에서 {{{#red 다른 누군가에 의해}}} 살해되었을 확률'''을 고려해야한다. 즉 '''절대다수의 가정폭력 사례는 살인까지 발생하지 않지만, 그 살인사건이 가정폭력의 전력이 있다는 전제 하에 그 범인은 그의 남편이나 아내이다.''' 즉, 주객전도가 된 것. == [[베이즈 정리]]의 유도 == [[베이즈 정리]]를 [[조건부 확률]]의 정의로 부터 유도할 수 있다. 자세한 내용은 [[베이즈 정리#s-2|베이즈 정리]]의 유도에 대한 문단 참조. [[분류:통계학]][[분류:한자어]][[분류:나무위키 수학 프로젝트]]