2009년 09월 23일
그림으로 보는 통계: (1) 쥐와 사람의 관계
통계 얘기가 나온 김에 뭔가 재밌는(?) 통계 이야기.
"넘버스(Numbers)"라는 미국 드라마가 있다. 수학자가 FBI를 도와 범죄 해결을 한다는 이야기다. 이 드라마에서 나오는 수학 기법 중에 상당수가 통계학에 속한다. 당연한 일이다. 불확실성이 포함된 데이터를 가지고 그 아래서 패턴을 읽어내는 게 통계학이기 때문이다. 이런 이유 때문에 통계학은 범죄 수사만이 아니라 학문 연구, 정책 결정, 여론 조사 등 많은 분야에서 사용되고 있다.
그런데 통계학은 19세기에 시작된 최신 분야다. 나이가 들어 눈이 먼 후에도 암산만으로 논문을 썼다는 18세기의 위대한 수학자 오일러도 "데이터는 적을 수록 좋다"고 생각했다고 한다. 그만큼 통계학을 직관적으로 이해하기는 어렵다. 내가 오일러에 비할만한 사람은 아니지만 그래도 10년 가까이 통계를 공부했는데 아직도 간단한 개념이 헷갈려서 책을 찾아볼 때가 있다.
나만 그런 것은 아닌지 통계학자들도 통계의 핵심적 아이디어를 직관적으로 표현할 방법을 여러 가지 생각해냈다. 오늘 소개할 "유향 그래프 모형(directed graphical model)" 또는 "베이지언 네트워크(Bayesian network)"가 그 예다. 이 글에서는 그냥 '그래프 모형'이라고 부르겠다.
그래프 모형은 무시무시한 이름과 달리 내용은 아주 간단하다. 동그라미와 화살표만 알면 된다. 한 가지 예를 들어보자. 비가 오면 땅이 젖는다. 어느 날 아침 집을 나서니 땅이 젖어있다. 비가 왔나?하며 하늘을 한 번 본다. 이 상황을 그래프 모형으로 나타내면 아래와 같다.
비는 올 수도 있고 안 올 수도 있다. 땅은 젖을 수도 있고 안 젖을 수도 있다. 그래프 모형에서 이런 변수들은 원으로 그린다. 그리고 이 변수들 사이의 관계는 화살표로 그린다. 비가 오면 땅이 젖지, 땅이 젖으면 비가 오는 건 아니니까 '비가 왔다'에서 '땅이 젖었다'로 화살표를 긋는다. 마지막으로 우리가 실제 목격한 건 땅이 젖었다는 것 뿐이니까 땅이 젖었다는 까맣게 칠하고, 비가 왔다는 속이 빈 원으로 그린다. 참 쉽죠?
그래프 모형은 이렇게 확률적인 관계들을 알기 쉽게 나타내주는 것이다. 그런데 그리는 방법이 너무 간단해서 헛웃음이 나온다. 이걸로 우리가 알 수 있는 게 뭐가 있냐. 그래서 오늘은 역시 간단하면서도, 다른데 써먹기도 좋고, 애인과 카페에서 차마시다가 냅킨에 그려서 가르쳐주면 폼도 나는(과연?) 그래프 모형의 활용법 하나를 알려주겠다.
비가 오면 땅이 젖는다. 땅이 젖는 건 꼭 비 때문 만은 아니지만 땅이 젖어있다면 비가 왔을 가능성이 높다. 즉, 화살표의 방향이야 어떻든 화살표로 연결된 두 변수는 서로 '관련'이 있다. 독립이니 종속이니 하는 통계학 용어는 몰라도 된다. 그러면 저렇게 여러 가지 변수가 얽히고 섥혀 있을 때 직접 연결되어 있지는 않지만 건너 건너 연결된 변수들은 어떨까?
이걸 따져보는 방법이 '베이즈 공 계산법(Bayes ball algorithm)"이다. 그래프 모형도 그렇지만 이것도 이름만 거창하지 내용은 별 거 없다. 이 계산법은 아주 간단하다. "하얀 원으로 연결되면 관련이 있고, 까만 원으로 연결되면 관련이 없다. 머리-대-머리면 반대." 무슨 주문 같지만 하나씩 예를 들어 설명을 해보자.
집에 쥐가 살면 쌀이 축날 가능성이 높다. 쌀이 축나면 사람이 굶을 가능성이 높다. 위의 그래프 모형은 이 상황을 명쾌하게 정리하고 있다. 그림을 잘 보면 "쌀이 축난다"의 왼쪽에는 화살표의 '머리'가 붙어있고, 오른쪽에는 화살표의 '꼬리'가 붙어있다. 이걸 '머리-대-꼬리(head-to-tail)'라고 한다.
"집에 쥐가 산다"와 "사람이 굶는다"는 "쌀이 축난다"를 통해 간접적으로 연결되어 있다. 우리의 '주문'에서 "하얀 원으로 연결되면 관련이 있다"는 게 이 뜻이다. 어렵게 생각해보지 않아도 집에 쥐가 사는 것과 사람이 굶는 것 사이에는 당연히 관련이 있다. 그럼 이번엔 "쌀이 축난다"가 관찰된 경우를 생각해보자.
이제 "집에 쥐가 산다"와 "사람이 굶는다"는 까만 원으로 연결되었다. 그러면 둘 사이에는 관련이 없다. 이해가 잘 안 갈 수도 있는데 이렇게 생각을 해보자. "집에 쥐가 산다"는 것이 "사람이 굶는다"에 영향을 주는 건 어디까지나 "쌀이 축난다"를 통해서다. 그런데 어떤 이유에서건 쌀이 축난다는 게 확인된 이상 집에 쥐가 살건 말건 사람이 굶는다는 점에는 변함이 없다.
물론 "그 쥐를 잡으면 사람은 더 굶지 않을 게 아닌가?"하고 반문할 수도 있다. 그런데 쥐를 잡으면 위의 그래프의 관찰 상태가 달라진다. "집에 쥐가 산다"는 관찰된 상태로 바뀌고, "쌀이 축난다"는 관찰되지 않은 상태로 바뀐다. 쥐가 없어도 도둑이 쌀을 훔쳐갈 수도 있고, 벌레가 쌀을 축낼 수도 있기 때문이다. 그러면 다시 "집에 쥐가 산다"와 "사람이 굶는다"는 하얀 원으로 연결되기 때문에 관련이 있게 된다.
별로 한 이야기도 없는데 글이 길어졌다. "꼬리-대-꼬리"와 "머리-대-머리"의 경우는 다음 글에서 다루도록 하겠다.
"넘버스(Numbers)"라는 미국 드라마가 있다. 수학자가 FBI를 도와 범죄 해결을 한다는 이야기다. 이 드라마에서 나오는 수학 기법 중에 상당수가 통계학에 속한다. 당연한 일이다. 불확실성이 포함된 데이터를 가지고 그 아래서 패턴을 읽어내는 게 통계학이기 때문이다. 이런 이유 때문에 통계학은 범죄 수사만이 아니라 학문 연구, 정책 결정, 여론 조사 등 많은 분야에서 사용되고 있다.
그런데 통계학은 19세기에 시작된 최신 분야다. 나이가 들어 눈이 먼 후에도 암산만으로 논문을 썼다는 18세기의 위대한 수학자 오일러도 "데이터는 적을 수록 좋다"고 생각했다고 한다. 그만큼 통계학을 직관적으로 이해하기는 어렵다. 내가 오일러에 비할만한 사람은 아니지만 그래도 10년 가까이 통계를 공부했는데 아직도 간단한 개념이 헷갈려서 책을 찾아볼 때가 있다.
나만 그런 것은 아닌지 통계학자들도 통계의 핵심적 아이디어를 직관적으로 표현할 방법을 여러 가지 생각해냈다. 오늘 소개할 "유향 그래프 모형(directed graphical model)" 또는 "베이지언 네트워크(Bayesian network)"가 그 예다. 이 글에서는 그냥 '그래프 모형'이라고 부르겠다.
그래프 모형은 무시무시한 이름과 달리 내용은 아주 간단하다. 동그라미와 화살표만 알면 된다. 한 가지 예를 들어보자. 비가 오면 땅이 젖는다. 어느 날 아침 집을 나서니 땅이 젖어있다. 비가 왔나?하며 하늘을 한 번 본다. 이 상황을 그래프 모형으로 나타내면 아래와 같다.

그래프 모형은 이렇게 확률적인 관계들을 알기 쉽게 나타내주는 것이다. 그런데 그리는 방법이 너무 간단해서 헛웃음이 나온다. 이걸로 우리가 알 수 있는 게 뭐가 있냐. 그래서 오늘은 역시 간단하면서도, 다른데 써먹기도 좋고, 애인과 카페에서 차마시다가 냅킨에 그려서 가르쳐주면 폼도 나는(과연?) 그래프 모형의 활용법 하나를 알려주겠다.
비가 오면 땅이 젖는다. 땅이 젖는 건 꼭 비 때문 만은 아니지만 땅이 젖어있다면 비가 왔을 가능성이 높다. 즉, 화살표의 방향이야 어떻든 화살표로 연결된 두 변수는 서로 '관련'이 있다. 독립이니 종속이니 하는 통계학 용어는 몰라도 된다. 그러면 저렇게 여러 가지 변수가 얽히고 섥혀 있을 때 직접 연결되어 있지는 않지만 건너 건너 연결된 변수들은 어떨까?
이걸 따져보는 방법이 '베이즈 공 계산법(Bayes ball algorithm)"이다. 그래프 모형도 그렇지만 이것도 이름만 거창하지 내용은 별 거 없다. 이 계산법은 아주 간단하다. "하얀 원으로 연결되면 관련이 있고, 까만 원으로 연결되면 관련이 없다. 머리-대-머리면 반대." 무슨 주문 같지만 하나씩 예를 들어 설명을 해보자.

"집에 쥐가 산다"와 "사람이 굶는다"는 "쌀이 축난다"를 통해 간접적으로 연결되어 있다. 우리의 '주문'에서 "하얀 원으로 연결되면 관련이 있다"는 게 이 뜻이다. 어렵게 생각해보지 않아도 집에 쥐가 사는 것과 사람이 굶는 것 사이에는 당연히 관련이 있다. 그럼 이번엔 "쌀이 축난다"가 관찰된 경우를 생각해보자.

물론 "그 쥐를 잡으면 사람은 더 굶지 않을 게 아닌가?"하고 반문할 수도 있다. 그런데 쥐를 잡으면 위의 그래프의 관찰 상태가 달라진다. "집에 쥐가 산다"는 관찰된 상태로 바뀌고, "쌀이 축난다"는 관찰되지 않은 상태로 바뀐다. 쥐가 없어도 도둑이 쌀을 훔쳐갈 수도 있고, 벌레가 쌀을 축낼 수도 있기 때문이다. 그러면 다시 "집에 쥐가 산다"와 "사람이 굶는다"는 하얀 원으로 연결되기 때문에 관련이 있게 된다.
별로 한 이야기도 없는데 글이 길어졌다. "꼬리-대-꼬리"와 "머리-대-머리"의 경우는 다음 글에서 다루도록 하겠다.

# by | 2009/09/23 16:26 | 트랙백 | 핑백(5) | 덧글(45)





☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
... 그림으로 보는 통계: (1) 쥐와 사람의 관계 여러분의 열화와 같은(?) 성원에 힘입어 계속되는 연재(먼산). 오늘의 주제는 꼬리-대-꼬리(tail-to-tail) 연결이다. 어느 순간 ... more
... 그림으로 보는 통계: (1) 쥐와 사람의 관계 그림으로 보는 통계: (2) 쥐는 살찌고 사람은 굶는다 대망의 마지막 회. 일단 베이즈 볼 계산법의 주문을 다시 외어보자. "하얀 원으로 ... more
... the mind: Predicting fluency with PageRank. Psychological Science, 18, 1069-1076. 그림으로 보는 통계: (1) 쥐와 사람의 관계 그림으로 보는 통계: (2) 쥐는 살찌고 사람은 굶는다 그림으로 보는 통계: (3) 바람난 남편, 외계인 아내 ... more
... gram) 모형이다. '바이(bi-)'는 '둘'이라는 뜻이다. 아래 그림처럼 한 단어가 나타날 확률이 앞 단어에 영향을 받는다고 가정하는 것이다. 그림으로 보는 통계: (1) 쥐와 사람의 관계에서도 설명했지만 관찰된 사건이 머리-대-꼬리로 연결하는 두 사건 사이에는 아무런 관련이 없다. 위의 그림에서 '사랑한다'가 나타날 확률은 ... more
... 기 전의 쎈쓰! ★직장어 표준어 (이로동님) 제길 눈물 없이는 볼 수 없다 OTL ★이과생틱 개그 (yora님) 적재적소에 사용하면 생활의 활력소 ★그림으로 보는 통계: 01 | 02 | 03 (아이추판다님) 쉬운 설명과 절묘한 예시가 매력 ★미녀는 석류를 좋아해. (데프콘1님) 덧글과 같이 보면 더 재미있음 ★최근 이글루스에서 발견한 ... more
제목에 순번을 단다 독자들이 연재를 기대한다
재밌습니다. :)
다음 연재도 기대하고 있겠습니다.
연재 기대할께요 ^^;
좀 어렵지만.. 저만 어려운거같아요.. ㅋㅋ
재밌게 읽었습니다.
이거 댓글 안 달 수가 없네요...마지막 모형은 어디 딴 데 응용해서 써먹고 싶어집니다..ㅎㅎ
라는 경우도 있습... (도망)
다음 연재 기대하겠습니다. (댓글 +1)
저도 글 좀 잘 쓰고 싶습...
http://davidakenny.net/cm/mediate.htm