'통계'에 해당되는 글 1건

  1. 2008.05.20 통계에서 유의수준의 의미


보통 우리가 가설을 세울 때는 '두 집단(또는 세 집단 이상) 사이에는 차이가 없다'를 귀무가설로 내세운다.

유의수준은 '실제로는 각 모집단이 어떤 조건을 갖고 있는데 그 조건이 틀렸다고 잘못 생각할 확률'을 말한다.

즉 우리 나라 전체 인구를 대상으로 임의로 여섯 명씩 뽑는다(우리 나라의 남녀비는 1:1이라고 가정한다). 가장 가능성이 높은 건 남녀 각 세 명씩 뽑는 것이다. 그러나 뽑다 보면 어느 한쪽이 많을 수도 있다. 남자 4명, 여자 2명이 나왔다면 우리는 전체의 남녀 비율은 같지만 실제로 뽑다 보니 그렇게 나올 수도 있다고 판단할 수도 있다. 하지만 여섯 명을 뽑았는데 하필이면 전부 다 여자였다고 하자. 그렇다면 우리는 '원래 남녀 비율이 같았는데 하필이면 어떻게 순 다 여자만 뽑혔다.'라고 생각할 수도 있고 '혹시 모집단의 남녀 비율이 1:1이 아니고 여자가 훨씬 많은 것 아닐까'라고 생각할 수도 있다. 전자가 귀무가설(영가설)이고 후자가 대립가설이다.

남녀 비율이 똑같은데 여섯 명 뽑아서 다 여자가 나올 확률은 1/64이다. 그렇기 때문에 열 명 다 뽑아서 다 여자가 나온다면 우리는 '설마 남녀 비율이 똑같은데 우연히 이렇게 나왔을까?'라고 생각하기보다는 '원래 남녀 비율이 다르겠지'라고 생각할 가능성이 높아진다. 전자가 맞을 확률은 1/64밖에 안 되기 때문이다.

여섯 명을 뽑는데 남자가 한 명만 나올 확률은 6/64이고 약 9%이다. 이 경우는 어떨까 전자와 후자 중 어느 쪽으로 생각하게 될까? 사람에 따라 다를 것이다.

문제에서 유의수준 5%로 검정하라, 또는 유의수준 1%로 검정하라 같은 말이 흔히 나온다. 이것은 주어진 조건이 일어날 확률이 5%(또는 1%) 이하라면 우연히 일어나기 힘든 일이라고 보고 원래 조건이 틀렸다고 간주하라는 뜻이다.

유의수준 10%로 검정하라고 하면 6명 중 남자가 1명일 경우라면 '우연히 일어나기 힘든 일'이므로 원래 남녀 비율이 1:1이 아니라고 생각하라는 뜻이다. 그러나 5%로라고 한다면 우연히 그럴 수도 있다고 보기 때문에 남녀 비율이 1:1이라는 가정이 틀렸다고 말할 수 없는 것이다.

그러므로 가설을 기각하지 않고 수용한다고 해도 이 가설을 수용한 것 자체가 잘못된 결정일 수도 있는 것이다. 다만 우리는 이렇게 유의수준을 낮게 하는 것은 좀더 보수적인 결론을 내리라는 뜻이다. 즉 신약 개발을 할 때 유의수준을 작게 하면 문제를 줄일 수 있다. 즉 신약을 투여해서 효과를 본 환자의 수가 기존 약을 투여한 환자보다 많은 것이 우연한 것인가 아니면 신약이 기존 약보다 좋아서인가 결론을 내릴 때, 실제론 신약이 효과가 좋은데 '우연히 신약을 투여하여 효과를 본 환자의 수가 기존 약을 투여한 환자보다 많다'고 잘못 생각하는 경우가 실제로 신약이 기존 약보다 나을 게 없는데 우연히 신약 투여로 효과를 본 환자가 많아서 '신약이 기존 약보다 낫다'고 잘못 생각하는 경우보다는 덜 위험하기 때문이다.

이 유의수준은 1종 오류를 범할 확률하고 똑같다. 1종 오류란 차이가 없는 것을 차이가 있다고 잘못 생각하는 것이다. 그 반대가 2종 오류다. 2종 오류는 차이가 있는 것을 차이가 없다고 잘못 생각하는 것이다. 1종 오류는 우리가 정하기 나름인데 1종 오류 확률이 낮으면 2종 오류를 범할 확률이 높아진다. 

Posted by Tony Kim :