그림으로 보는 통계: (1) 쥐와 사람의 관계

통계 얘기가 나온 김에 뭔가 재밌는(?) 통계 이야기.

"넘버스(Numbers)"라는 미국 드라마가 있다. 수학자가 FBI를 도와 범죄 해결을 한다는 이야기다. 이 드라마에서 나오는 수학 기법 중에 상당수가 통계학에 속한다. 당연한 일이다. 불확실성이 포함된 데이터를 가지고 그 아래서 패턴을 읽어내는 게 통계학이기 때문이다. 이런 이유 때문에 통계학은 범죄 수사만이 아니라 학문 연구, 정책 결정, 여론 조사 등 많은 분야에서 사용되고 있다.

그런데 통계학은 19세기에 시작된 최신 분야다. 나이가 들어 눈이 먼 후에도 암산만으로 논문을 썼다는 18세기의 위대한 수학자 오일러도 "데이터는 적을 수록 좋다"고 생각했다고 한다. 그만큼 통계학을 직관적으로 이해하기는 어렵다. 내가 오일러에 비할만한 사람은 아니지만 그래도 10년 가까이 통계를 공부했는데 아직도 간단한 개념이 헷갈려서 책을 찾아볼 때가 있다.

나만 그런 것은 아닌지 통계학자들도 통계의 핵심적 아이디어를 직관적으로 표현할 방법을 여러 가지 생각해냈다. 오늘 소개할 "유향 그래프 모형(directed graphical model)" 또는 "베이지언 네트워크(Bayesian network)"가 그 예다. 이 글에서는 그냥 '그래프 모형'이라고 부르겠다.

그래프 모형은 무시무시한 이름과 달리 내용은 아주 간단하다. 동그라미와 화살표만 알면 된다. 한 가지 예를 들어보자. 비가 오면 땅이 젖는다. 어느 날 아침 집을 나서니 땅이 젖어있다. 비가 왔나?하며 하늘을 한 번 본다. 이 상황을 그래프 모형으로 나타내면 아래와 같다.

비는 올 수도 있고 안 올 수도 있다. 땅은 젖을 수도 있고 안 젖을 수도 있다. 그래프 모형에서 이런 변수들은 원으로 그린다. 그리고 이 변수들 사이의 관계는 화살표로 그린다. 비가 오면 땅이 젖지, 땅이 젖으면 비가 오는 건 아니니까 '비가 왔다'에서 '땅이 젖었다'로 화살표를 긋는다. 마지막으로 우리가 실제 목격한 건 땅이 젖었다는 것 뿐이니까 땅이 젖었다는 까맣게 칠하고, 비가 왔다는 속이 빈 원으로 그린다. 참 쉽죠?

그래프 모형은 이렇게 확률적인 관계들을 알기 쉽게 나타내주는 것이다. 그런데 그리는 방법이 너무 간단해서 헛웃음이 나온다. 이걸로 우리가 알 수 있는 게 뭐가 있냐. 그래서 오늘은 역시 간단하면서도, 다른데 써먹기도 좋고, 애인과 카페에서 차마시다가 냅킨에 그려서 가르쳐주면 폼도 나는(과연?) 그래프 모형의 활용법 하나를 알려주겠다.

비가 오면 땅이 젖는다. 땅이 젖는 건 꼭 비 때문 만은 아니지만 땅이 젖어있다면 비가 왔을 가능성이 높다. 즉, 화살표의 방향이야 어떻든 화살표로 연결된 두 변수는 서로 '관련'이 있다. 독립이니 종속이니 하는 통계학 용어는 몰라도 된다. 그러면 저렇게 여러 가지 변수가 얽히고 섥혀 있을 때 직접 연결되어 있지는 않지만 건너 건너 연결된 변수들은 어떨까?

이걸 따져보는 방법이 '베이즈 공 계산법(Bayes ball algorithm)"이다. 그래프 모형도 그렇지만 이것도 이름만 거창하지 내용은 별 거 없다. 이 계산법은 아주 간단하다. "하얀 원으로 연결되면 관련이 있고, 까만 원으로 연결되면 관련이 없다. 머리-대-머리면 반대." 무슨 주문 같지만 하나씩 예를 들어 설명을 해보자.

집에 쥐가 살면 쌀이 축날 가능성이 높다. 쌀이 축나면 사람이 굶을 가능성이 높다. 위의 그래프 모형은 이 상황을 명쾌하게 정리하고 있다. 그림을 잘 보면 "쌀이 축난다"의 왼쪽에는 화살표의 '머리'가 붙어있고, 오른쪽에는 화살표의 '꼬리'가 붙어있다. 이걸 '머리-대-꼬리(head-to-tail)'라고 한다.

"집에 쥐가 산다"와 "사람이 굶는다"는 "쌀이 축난다"를 통해 간접적으로 연결되어 있다. 우리의 '주문'에서 "하얀 원으로 연결되면 관련이 있다"는 게 이 뜻이다.  어렵게 생각해보지 않아도 집에 쥐가 사는 것과 사람이 굶는 것 사이에는 당연히 관련이 있다. 그럼 이번엔 "쌀이 축난다"가 관찰된 경우를 생각해보자.

이제 "집에 쥐가 산다"와 "사람이 굶는다"는 까만 원으로 연결되었다. 그러면 둘 사이에는 관련이 없다. 이해가 잘 안 갈 수도 있는데 이렇게 생각을 해보자. "집에 쥐가 산다"는 것이 "사람이 굶는다"에 영향을 주는 건 어디까지나 "쌀이 축난다"를 통해서다. 그런데 어떤 이유에서건 쌀이 축난다는 게 확인된 이상 집에 쥐가 살건 말건 사람이 굶는다는 점에는 변함이 없다.

물론 "그 쥐를 잡으면 사람은 더 굶지 않을 게 아닌가?"하고 반문할 수도 있다. 그런데 쥐를 잡으면 위의 그래프의 관찰 상태가 달라진다. "집에 쥐가 산다"는 관찰된 상태로 바뀌고, "쌀이 축난다"는 관찰되지 않은 상태로 바뀐다. 쥐가 없어도 도둑이 쌀을 훔쳐갈 수도 있고, 벌레가 쌀을 축낼 수도 있기 때문이다. 그러면 다시 "집에 쥐가 산다"와 "사람이 굶는다"는 하얀 원으로 연결되기 때문에 관련이 있게 된다.

별로 한 이야기도 없는데 글이 길어졌다. "꼬리-대-꼬리"와 "머리-대-머리"의 경우는 다음 글에서 다루도록 하겠다.

by 아이추판다 | 2009/09/23 16:26 | 트랙백 | 핑백(5) | 덧글(45)

트랙백 주소 : http://nullmodel.egloos.com/tb/1951581
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Linked at Null Model : 그림으.. at 2009/09/24 16:21

... 그림으로 보는 통계: (1) 쥐와 사람의 관계 여러분의 열화와 같은(?) 성원에 힘입어 계속되는 연재(먼산). 오늘의 주제는 꼬리-대-꼬리(tail-to-tail) 연결이다. 어느 순간 ... more

Linked at Null Model : 그림으.. at 2009/09/29 19:26

... 그림으로 보는 통계: (1) 쥐와 사람의 관계 그림으로 보는 통계: (2) 쥐는 살찌고 사람은 굶는다 대망의 마지막 회. 일단 베이즈 볼 계산법의 주문을 다시 외어보자. "하얀 원으로 ... more

Linked at Null Model : 텍스트.. at 2009/10/05 19:32

... the mind: Predicting fluency with PageRank. Psychological Science, 18, 1069-1076. 그림으로 보는 통계: (1) 쥐와 사람의 관계 그림으로 보는 통계: (2) 쥐는 살찌고 사람은 굶는다 그림으로 보는 통계: (3) 바람난 남편, 외계인 아내 ... more

Linked at Null Model : 텍스트.. at 2009/10/09 17:45

... gram) 모형이다. '바이(bi-)'는 '둘'이라는 뜻이다. 아래 그림처럼 한 단어가 나타날 확률이 앞 단어에 영향을 받는다고 가정하는 것이다. 그림으로 보는 통계: (1) 쥐와 사람의 관계에서도 설명했지만 관찰된 사건이 머리-대-꼬리로 연결하는 두 사건 사이에는 아무런 관련이 없다. 위의 그림에서 '사랑한다'가 나타날 확률은 ... more

Linked at 잠보니스틱스 : 오늘의 분방한.. at 2009/11/08 09:55

... 기 전의 쎈쓰! ★직장어 표준어 (이로동님) 제길 눈물 없이는 볼 수 없다 OTL ★이과생틱 개그 (yora님) 적재적소에 사용하면 생활의 활력소 ★그림으로 보는 통계: 01 | 02 | 03 (아이추판다님) 쉬운 설명과 절묘한 예시가 매력 ★미녀는 석류를 좋아해. (데프콘1님) 덧글과 같이 보면 더 재미있음 ★최근 이글루스에서 발견한 ... more

Commented by 櫻くん at 2009/09/23 16:30
마지막 그림에서 느껴지는 무언의 압박...
Commented by 아이추판다 at 2009/09/23 16:57
단순한 사실의 기술입니다 (먼산)
Commented by Ha-1 at 2009/09/23 16:32
O ------------------> O
제목에 순번을 단다 독자들이 연재를 기대한다
Commented by 아이추판다 at 2009/09/23 16:58
제목을 좀 고쳤습니다. ㅎㅎ
Commented by 한단인 at 2009/09/23 16:43
아.. 모종의 이유로 제목부터 뿜어버린 1인
Commented by 아이추판다 at 2009/09/23 16:58
다음 글의 제목도 맞춰보세요 ^^
Commented by 르혼 at 2009/09/23 16:46
'많이'라는 단어를 정의하지 않는 이상 마지막 모형의 상관관계를 증명하기 어렵겠군요.
Commented by 아이추판다 at 2009/09/23 17:00
^^
Commented by 정윤호 at 2009/09/23 16:52
눈팅만 했었는데 댓글을 아니달수가 없군요. ㅎㅎㅎ

재밌습니다. :)
Commented by 아이추판다 at 2009/09/23 17:02
반갑습니다 ^^
Commented by 다라나 at 2009/09/23 16:59
연재가 계속되기를 바라는 댓글 6번.
Commented by 아이추판다 at 2009/09/23 17:02
어디까지나 확률일 뿐이죠.. (웃음)
Commented by 언럭키즈 at 2009/09/23 17:19
마지막 센스넘치는 모형 때문에 댓글달고 갑니다.
다음 연재도 기대하고 있겠습니다.
Commented by 아이추판다 at 2009/09/23 20:28
그저 사실을 담담하게 기술했을 뿐입니다 (먼산)
Commented by 꽃꾼 at 2009/09/23 17:24
푸하~ 연재가 계속 되길 바랍니다. :D
Commented by 아이추판다 at 2009/09/23 20:28
감사합니다 ^^
Commented by 웅이 at 2009/09/23 17:27
ㅎㅎㅎ 재밋습니다.
연재 기대할께요 ^^;
좀 어렵지만.. 저만 어려운거같아요.. ㅋㅋ
Commented by 아이추판다 at 2009/09/23 20:29
다음 편은 좀 더 재미있게 써보겠습니다.
Commented by Dia♪ at 2009/09/23 17:28
연재가 계속 되기를 바라며 덧글 꾹+_+
Commented by 아이추판다 at 2009/09/23 20:29
감사합니다 ^^
Commented by 바른손 at 2009/09/23 17:53
제겐 굉장히 심오하게 느껴집니다.
재밌게 읽었습니다.
Commented by 아이추판다 at 2009/09/23 20:29
간만에 댓글이네요. 득남 축하드립니다 ^^
Commented by 바른손 at 2009/09/23 20:30
( _ _)*감사합니다.
Commented by 漁夫 at 2009/09/23 18:31
큭 마지막 그림이.... ^^;;
Commented by 아이추판다 at 2009/09/23 20:30
그저 사실일 뿐이죠. (먼산)
Commented by Raymundo at 2009/09/23 19:51
간만에 댓글 남깁니다. 안 남길 수가 없군요 ^^;;;;; 다음 글 기대합니다~
Commented by 아이추판다 at 2009/09/23 20:30
기대하세요 ^^
Commented by 지구밖 at 2009/09/23 20:24
하하~~~달았습니다.
Commented by 아이추판다 at 2009/09/23 20:31
^^
Commented by 미친고양이 at 2009/09/23 21:00
덧글을 안 달 수가 없군요.
Commented by Alias at 2009/09/23 21:03
.....;;;;

이거 댓글 안 달 수가 없네요...마지막 모형은 어디 딴 데 응용해서 써먹고 싶어집니다..ㅎㅎ
Commented by dhunter at 2009/09/23 21:41
댓글이 너무 많이 달린다 -> 연재가 부담스럽다.

라는 경우도 있습... (도망)
Commented by parxisan at 2009/09/23 21:45
아직까지는 통계학이라기보다 논리학처럼 느껴집니다.
Commented by 잠본이 at 2009/09/23 22:15
마지막은 진짜 적절한 응용인듯
Commented by 액시움 at 2009/09/23 22:33
연재가 기대됩니다. 흐겔겔겔
Commented by 愛天 at 2009/09/23 23:05
요즘 통계학하고 OR공부중이라 이번 연재도 기대하고 있습니다 ^^
Commented by Charlie at 2009/09/23 23:23
댓글을 많이 달아야겠군요. :)
Commented by aeon at 2009/09/23 23:35
도배 하면 좀 더 빨리 연재해주시나요? orz
Commented by 실피드 at 2009/09/23 23:44
그래프 모형을 이렇게 알기 쉽게 설명해주시다니..
다음 연재 기대하겠습니다. (댓글 +1)
저도 글 좀 잘 쓰고 싶습...
Commented by Semilla at 2009/09/24 00:32
덧글을 안 달 수가 없네요...
Commented by 上雨下云 at 2009/09/24 00:35
O→O
Commented by yy at 2009/09/24 02:35
화살표에 숫자도 없고 '많이'가 정량화가 안 되어 있어서 댓글을 다는게 얼마나 의미있는 행동인지 잘 판단이.. ;;
Commented by 로지 at 2009/09/24 04:26
하하! 뭔지는 잘 모르겠지만 재미있네요 :^)
Commented by 사이코 at 2009/09/28 04:57
이런 경우 어떤 심리학자들은 '쌀이 측난다'는 '집에 쥐가 산다'와 '사람이 죽는다'를 매개한다고 보기도 하지요. 그리고 그걸 증명해 보이기 위한 통계적 방법론을 고안해 냈지요. 꽤 유명한 방법론인 걸로 알고 있습니다.

http://davidakenny.net/cm/mediate.htm
Commented by 영춰 at 2009/10/17 04:55
댓글 달았습니다. ㅎㅎ 재미있네요.

:         :

:

비공개 덧글

◀ 이전 페이지          다음 페이지 ▶