2009/09/23 16:26

그림으로 보는 통계: (1) 쥐와 사람의 관계 수학/통계학

통계 얘기가 나온 김에 뭔가 재밌는(?) 통계 이야기.

"넘버스(Numbers)"라는 미국 드라마가 있다. 수학자가 FBI를 도와 범죄 해결을 한다는 이야기다. 이 드라마에서 나오는 수학 기법 중에 상당수가 통계학에 속한다. 당연한 일이다. 불확실성이 포함된 데이터를 가지고 그 아래서 패턴을 읽어내는 게 통계학이기 때문이다. 이런 이유 때문에 통계학은 범죄 수사만이 아니라 학문 연구, 정책 결정, 여론 조사 등 많은 분야에서 사용되고 있다.

그런데 통계학은 19세기에 시작된 최신 분야다. 나이가 들어 눈이 먼 후에도 암산만으로 논문을 썼다는 18세기의 위대한 수학자 오일러도 "데이터는 적을 수록 좋다"고 생각했다고 한다. 그만큼 통계학을 직관적으로 이해하기는 어렵다. 내가 오일러에 비할만한 사람은 아니지만 그래도 10년 가까이 통계를 공부했는데 아직도 간단한 개념이 헷갈려서 책을 찾아볼 때가 있다.

나만 그런 것은 아닌지 통계학자들도 통계의 핵심적 아이디어를 직관적으로 표현할 방법을 여러 가지 생각해냈다. 오늘 소개할 "유향 그래프 모형(directed graphical model)" 또는 "베이지언 네트워크(Bayesian network)"가 그 예다. 이 글에서는 그냥 '그래프 모형'이라고 부르겠다.

그래프 모형은 무시무시한 이름과 달리 내용은 아주 간단하다. 동그라미와 화살표만 알면 된다. 한 가지 예를 들어보자. 비가 오면 땅이 젖는다. 어느 날 아침 집을 나서니 땅이 젖어있다. 비가 왔나?하며 하늘을 한 번 본다. 이 상황을 그래프 모형으로 나타내면 아래와 같다.

비는 올 수도 있고 안 올 수도 있다. 땅은 젖을 수도 있고 안 젖을 수도 있다. 그래프 모형에서 이런 변수들은 원으로 그린다. 그리고 이 변수들 사이의 관계는 화살표로 그린다. 비가 오면 땅이 젖지, 땅이 젖으면 비가 오는 건 아니니까 '비가 왔다'에서 '땅이 젖었다'로 화살표를 긋는다. 마지막으로 우리가 실제 목격한 건 땅이 젖었다는 것 뿐이니까 땅이 젖었다는 까맣게 칠하고, 비가 왔다는 속이 빈 원으로 그린다. 참 쉽죠?

그래프 모형은 이렇게 확률적인 관계들을 알기 쉽게 나타내주는 것이다. 그런데 그리는 방법이 너무 간단해서 헛웃음이 나온다. 이걸로 우리가 알 수 있는 게 뭐가 있냐. 그래서 오늘은 역시 간단하면서도, 다른데 써먹기도 좋고, 애인과 카페에서 차마시다가 냅킨에 그려서 가르쳐주면 폼도 나는(과연?) 그래프 모형의 활용법 하나를 알려주겠다.

비가 오면 땅이 젖는다. 땅이 젖는 건 꼭 비 때문 만은 아니지만 땅이 젖어있다면 비가 왔을 가능성이 높다. 즉, 화살표의 방향이야 어떻든 화살표로 연결된 두 변수는 서로 '관련'이 있다. 독립이니 종속이니 하는 통계학 용어는 몰라도 된다. 그러면 저렇게 여러 가지 변수가 얽히고 섥혀 있을 때 직접 연결되어 있지는 않지만 건너 건너 연결된 변수들은 어떨까?

이걸 따져보는 방법이 '베이즈 공 계산법(Bayes ball algorithm)"이다. 그래프 모형도 그렇지만 이것도 이름만 거창하지 내용은 별 거 없다. 이 계산법은 아주 간단하다. "하얀 원으로 연결되면 관련이 있고, 까만 원으로 연결되면 관련이 없다. 머리-대-머리면 반대." 무슨 주문 같지만 하나씩 예를 들어 설명을 해보자.

집에 쥐가 살면 쌀이 축날 가능성이 높다. 쌀이 축나면 사람이 굶을 가능성이 높다. 위의 그래프 모형은 이 상황을 명쾌하게 정리하고 있다. 그림을 잘 보면 "쌀이 축난다"의 왼쪽에는 화살표의 '머리'가 붙어있고, 오른쪽에는 화살표의 '꼬리'가 붙어있다. 이걸 '머리-대-꼬리(head-to-tail)'라고 한다.

"집에 쥐가 산다"와 "사람이 굶는다"는 "쌀이 축난다"를 통해 간접적으로 연결되어 있다. 우리의 '주문'에서 "하얀 원으로 연결되면 관련이 있다"는 게 이 뜻이다.  어렵게 생각해보지 않아도 집에 쥐가 사는 것과 사람이 굶는 것 사이에는 당연히 관련이 있다. 그럼 이번엔 "쌀이 축난다"가 관찰된 경우를 생각해보자.

이제 "집에 쥐가 산다"와 "사람이 굶는다"는 까만 원으로 연결되었다. 그러면 둘 사이에는 관련이 없다. 이해가 잘 안 갈 수도 있는데 이렇게 생각을 해보자. "집에 쥐가 산다"는 것이 "사람이 굶는다"에 영향을 주는 건 어디까지나 "쌀이 축난다"를 통해서다. 그런데 어떤 이유에서건 쌀이 축난다는 게 확인된 이상 집에 쥐가 살건 말건 사람이 굶는다는 점에는 변함이 없다.

물론 "그 쥐를 잡으면 사람은 더 굶지 않을 게 아닌가?"하고 반문할 수도 있다. 그런데 쥐를 잡으면 위의 그래프의 관찰 상태가 달라진다. "집에 쥐가 산다"는 관찰된 상태로 바뀌고, "쌀이 축난다"는 관찰되지 않은 상태로 바뀐다. 쥐가 없어도 도둑이 쌀을 훔쳐갈 수도 있고, 벌레가 쌀을 축낼 수도 있기 때문이다. 그러면 다시 "집에 쥐가 산다"와 "사람이 굶는다"는 하얀 원으로 연결되기 때문에 관련이 있게 된다.

별로 한 이야기도 없는데 글이 길어졌다. "꼬리-대-꼬리"와 "머리-대-머리"의 경우는 다음 글에서 다루도록 하겠다.


핑백

  • Null Model : 그림으로 보는 통계: (2) 쥐는 살찌고 사람은 굶는다 2009-09-24 16:21:46 #

    ... 그림으로 보는 통계: (1) 쥐와 사람의 관계 여러분의 열화와 같은(?) 성원에 힘입어 계속되는 연재(먼산). 오늘의 주제는 꼬리-대-꼬리(tail-to-tail) 연결이다. 어느 순간 ... more

  • Null Model : 그림으로 보는 통계: (3) 바람난 남편, 외계인 아내 2009-09-29 19:26:48 #

    ... 그림으로 보는 통계: (1) 쥐와 사람의 관계 그림으로 보는 통계: (2) 쥐는 살찌고 사람은 굶는다 대망의 마지막 회. 일단 베이즈 볼 계산법의 주문을 다시 외어보자. "하얀 원으로 ... more

  • Null Model : 텍스트의 통계학: (1) 구글신의 새 마음 2009-10-05 19:32:49 #

    ... the mind: Predicting fluency with PageRank. Psychological Science, 18, 1069-1076. 그림으로 보는 통계: (1) 쥐와 사람의 관계 그림으로 보는 통계: (2) 쥐는 살찌고 사람은 굶는다 그림으로 보는 통계: (3) 바람난 남편, 외계인 아내 ... more

  • Null Model : 텍스트의 통계학: (2) 셰익스피어의 영혼은 몇 그램? 2009-10-09 17:45:11 #

    ... gram) 모형이다. '바이(bi-)'는 '둘'이라는 뜻이다. 아래 그림처럼 한 단어가 나타날 확률이 앞 단어에 영향을 받는다고 가정하는 것이다. 그림으로 보는 통계: (1) 쥐와 사람의 관계에서도 설명했지만 관찰된 사건이 머리-대-꼬리로 연결하는 두 사건 사이에는 아무런 관련이 없다. 위의 그림에서 '사랑한다'가 나타날 확률은 ... more

  • 잠보니스틱스 : 오늘의 분방한 잡동사니 2009-11-08 09:55:36 #

    ... 기 전의 쎈쓰! ★직장어 표준어 (이로동님) 제길 눈물 없이는 볼 수 없다 OTL ★이과생틱 개그 (yora님) 적재적소에 사용하면 생활의 활력소 ★그림으로 보는 통계: 01 | 02 | 03 (아이추판다님) 쉬운 설명과 절묘한 예시가 매력 ★미녀는 석류를 좋아해. (데프콘1님) 덧글과 같이 보면 더 재미있음 ★최근 이글루스에서 발견한 ... more

덧글

  • 櫻くん 2009/09/23 16:30 #

    마지막 그림에서 느껴지는 무언의 압박...
  • 아이추판다 2009/09/23 16:57 #

    단순한 사실의 기술입니다 (먼산)
  • Ha-1 2009/09/23 16:32 #

    O ------------------> O
    제목에 순번을 단다 독자들이 연재를 기대한다
  • 아이추판다 2009/09/23 16:58 #

    제목을 좀 고쳤습니다. ㅎㅎ
  • 한단인 2009/09/23 16:43 #

    아.. 모종의 이유로 제목부터 뿜어버린 1인
  • 아이추판다 2009/09/23 16:58 #

    다음 글의 제목도 맞춰보세요 ^^
  • 르혼 2009/09/23 16:46 #

    '많이'라는 단어를 정의하지 않는 이상 마지막 모형의 상관관계를 증명하기 어렵겠군요.
  • 아이추판다 2009/09/23 17:00 #

    ^^
  • 정윤호 2009/09/23 16:52 # 삭제

    눈팅만 했었는데 댓글을 아니달수가 없군요. ㅎㅎㅎ

    재밌습니다. :)
  • 아이추판다 2009/09/23 17:02 #

    반갑습니다 ^^
  • 다라나 2009/09/23 16:59 #

    연재가 계속되기를 바라는 댓글 6번.
  • 아이추판다 2009/09/23 17:02 #

    어디까지나 확률일 뿐이죠.. (웃음)
  • 언럭키즈 2009/09/23 17:19 #

    마지막 센스넘치는 모형 때문에 댓글달고 갑니다.
    다음 연재도 기대하고 있겠습니다.
  • 아이추판다 2009/09/23 20:28 #

    그저 사실을 담담하게 기술했을 뿐입니다 (먼산)
  • 꽃꾼 2009/09/23 17:24 # 삭제

    푸하~ 연재가 계속 되길 바랍니다. :D
  • 아이추판다 2009/09/23 20:28 #

    감사합니다 ^^
  • 웅이 2009/09/23 17:27 # 삭제

    ㅎㅎㅎ 재밋습니다.
    연재 기대할께요 ^^;
    좀 어렵지만.. 저만 어려운거같아요.. ㅋㅋ
  • 아이추판다 2009/09/23 20:29 #

    다음 편은 좀 더 재미있게 써보겠습니다.
  • Dia♪ 2009/09/23 17:28 #

    연재가 계속 되기를 바라며 덧글 꾹+_+
  • 아이추판다 2009/09/23 20:29 #

    감사합니다 ^^
  • 바른손 2009/09/23 17:53 #

    제겐 굉장히 심오하게 느껴집니다.
    재밌게 읽었습니다.
  • 아이추판다 2009/09/23 20:29 #

    간만에 댓글이네요. 득남 축하드립니다 ^^
  • 바른손 2009/09/23 20:30 #

    ( _ _)*감사합니다.
  • 漁夫 2009/09/23 18:31 #

    큭 마지막 그림이.... ^^;;
  • 아이추판다 2009/09/23 20:30 #

    그저 사실일 뿐이죠. (먼산)
  • Raymundo 2009/09/23 19:51 # 삭제

    간만에 댓글 남깁니다. 안 남길 수가 없군요 ^^;;;;; 다음 글 기대합니다~
  • 아이추판다 2009/09/23 20:30 #

    기대하세요 ^^
  • 지구밖 2009/09/23 20:24 #

    하하~~~달았습니다.
  • 아이추판다 2009/09/23 20:31 #

    ^^
  • 미친고양이 2009/09/23 21:00 #

    덧글을 안 달 수가 없군요.
  • Alias 2009/09/23 21:03 #

    .....;;;;

    이거 댓글 안 달 수가 없네요...마지막 모형은 어디 딴 데 응용해서 써먹고 싶어집니다..ㅎㅎ
  • dhunter 2009/09/23 21:41 # 삭제

    댓글이 너무 많이 달린다 -> 연재가 부담스럽다.

    라는 경우도 있습... (도망)
  • parxisan 2009/09/23 21:45 # 삭제

    아직까지는 통계학이라기보다 논리학처럼 느껴집니다.
  • 잠본이 2009/09/23 22:15 #

    마지막은 진짜 적절한 응용인듯
  • 액시움 2009/09/23 22:33 #

    연재가 기대됩니다. 흐겔겔겔
  • 愛天 2009/09/23 23:05 # 삭제

    요즘 통계학하고 OR공부중이라 이번 연재도 기대하고 있습니다 ^^
  • Charlie 2009/09/23 23:23 #

    댓글을 많이 달아야겠군요. :)
  • aeon 2009/09/23 23:35 #

    도배 하면 좀 더 빨리 연재해주시나요? orz
  • 실피드 2009/09/23 23:44 #

    그래프 모형을 이렇게 알기 쉽게 설명해주시다니..
    다음 연재 기대하겠습니다. (댓글 +1)
    저도 글 좀 잘 쓰고 싶습...
  • Semilla 2009/09/24 00:32 #

    덧글을 안 달 수가 없네요...
  • 上雨下云 2009/09/24 00:35 #

    O→O
  • yy 2009/09/24 02:35 # 삭제

    화살표에 숫자도 없고 '많이'가 정량화가 안 되어 있어서 댓글을 다는게 얼마나 의미있는 행동인지 잘 판단이.. ;;
  • 로지 2009/09/24 04:26 # 삭제

    하하! 뭔지는 잘 모르겠지만 재미있네요 :^)
  • 사이코 2009/09/28 04:57 # 삭제

    이런 경우 어떤 심리학자들은 '쌀이 측난다'는 '집에 쥐가 산다'와 '사람이 죽는다'를 매개한다고 보기도 하지요. 그리고 그걸 증명해 보이기 위한 통계적 방법론을 고안해 냈지요. 꽤 유명한 방법론인 걸로 알고 있습니다.

    http://davidakenny.net/cm/mediate.htm
  • 영춰 2009/10/17 04:55 #

    댓글 달았습니다. ㅎㅎ 재미있네요.
※ 이 포스트는 더 이상 덧글을 남길 수 없습니다.



검색

맞춤검색

메모장

야후 블로그 벳지