"넘버스(Numbers)"라는 미국 드라마가 있다. 수학자가 FBI를 도와 범죄 해결을 한다는 이야기다. 이 드라마에서 나오는 수학 기법 중에 상당수가 통계학에 속한다. 당연한 일이다. 불확실성이 포함된 데이터를 가지고 그 아래서 패턴을 읽어내는 게 통계학이기 때문이다. 이런 이유 때문에 통계학은 범죄 수사만이 아니라 학문 연구, 정책 결정, 여론 조사 등 많은 분야에서 사용되고 있다.
그런데 통계학은 19세기에 시작된 최신 분야다. 나이가 들어 눈이 먼 후에도 암산만으로 논문을 썼다는 18세기의 위대한 수학자 오일러도 "데이터는 적을 수록 좋다"고 생각했다고 한다. 그만큼 통계학을 직관적으로 이해하기는 어렵다. 내가 오일러에 비할만한 사람은 아니지만 그래도 10년 가까이 통계를 공부했는데 아직도 간단한 개념이 헷갈려서 책을 찾아볼 때가 있다.
나만 그런 것은 아닌지 통계학자들도 통계의 핵심적 아이디어를 직관적으로 표현할 방법을 여러 가지 생각해냈다. 오늘 소개할 "유향 그래프 모형(directed graphical model)" 또는 "베이지언 네트워크(Bayesian network)"가 그 예다. 이 글에서는 그냥 '그래프 모형'이라고 부르겠다.
그래프 모형은 무시무시한 이름과 달리 내용은 아주 간단하다. 동그라미와 화살표만 알면 된다. 한 가지 예를 들어보자. 비가 오면 땅이 젖는다. 어느 날 아침 집을 나서니 땅이 젖어있다. 비가 왔나?하며 하늘을 한 번 본다. 이 상황을 그래프 모형으로 나타내면 아래와 같다.

그래프 모형은 이렇게 확률적인 관계들을 알기 쉽게 나타내주는 것이다. 그런데 그리는 방법이 너무 간단해서 헛웃음이 나온다. 이걸로 우리가 알 수 있는 게 뭐가 있냐. 그래서 오늘은 역시 간단하면서도, 다른데 써먹기도 좋고, 애인과 카페에서 차마시다가 냅킨에 그려서 가르쳐주면 폼도 나는(과연?) 그래프 모형의 활용법 하나를 알려주겠다.
비가 오면 땅이 젖는다. 땅이 젖는 건 꼭 비 때문 만은 아니지만 땅이 젖어있다면 비가 왔을 가능성이 높다. 즉, 화살표의 방향이야 어떻든 화살표로 연결된 두 변수는 서로 '관련'이 있다. 독립이니 종속이니 하는 통계학 용어는 몰라도 된다. 그러면 저렇게 여러 가지 변수가 얽히고 섥혀 있을 때 직접 연결되어 있지는 않지만 건너 건너 연결된 변수들은 어떨까?
이걸 따져보는 방법이 '베이즈 공 계산법(Bayes ball algorithm)"이다. 그래프 모형도 그렇지만 이것도 이름만 거창하지 내용은 별 거 없다. 이 계산법은 아주 간단하다. "하얀 원으로 연결되면 관련이 있고, 까만 원으로 연결되면 관련이 없다. 머리-대-머리면 반대." 무슨 주문 같지만 하나씩 예를 들어 설명을 해보자.

"집에 쥐가 산다"와 "사람이 굶는다"는 "쌀이 축난다"를 통해 간접적으로 연결되어 있다. 우리의 '주문'에서 "하얀 원으로 연결되면 관련이 있다"는 게 이 뜻이다. 어렵게 생각해보지 않아도 집에 쥐가 사는 것과 사람이 굶는 것 사이에는 당연히 관련이 있다. 그럼 이번엔 "쌀이 축난다"가 관찰된 경우를 생각해보자.

물론 "그 쥐를 잡으면 사람은 더 굶지 않을 게 아닌가?"하고 반문할 수도 있다. 그런데 쥐를 잡으면 위의 그래프의 관찰 상태가 달라진다. "집에 쥐가 산다"는 관찰된 상태로 바뀌고, "쌀이 축난다"는 관찰되지 않은 상태로 바뀐다. 쥐가 없어도 도둑이 쌀을 훔쳐갈 수도 있고, 벌레가 쌀을 축낼 수도 있기 때문이다. 그러면 다시 "집에 쥐가 산다"와 "사람이 굶는다"는 하얀 원으로 연결되기 때문에 관련이 있게 된다.
별로 한 이야기도 없는데 글이 길어졌다. "꼬리-대-꼬리"와 "머리-대-머리"의 경우는 다음 글에서 다루도록 하겠다.






덧글
제목에 순번을 단다 독자들이 연재를 기대한다
재밌습니다. :)
다음 연재도 기대하고 있겠습니다.
연재 기대할께요 ^^;
좀 어렵지만.. 저만 어려운거같아요.. ㅋㅋ
재밌게 읽었습니다.
이거 댓글 안 달 수가 없네요...마지막 모형은 어디 딴 데 응용해서 써먹고 싶어집니다..ㅎㅎ
라는 경우도 있습... (도망)
다음 연재 기대하겠습니다. (댓글 +1)
저도 글 좀 잘 쓰고 싶습...
http://davidakenny.net/cm/mediate.htm