태그 : 확률론적모델링

지식체계의 발견

사람의 뇌/마음은 긴 진화 과정을 통해 만들어진 것이다. 진화는 거대한 설계 아래 이뤄지는 것이 아니라 그때 그때 땜질처방식으로 이뤄지기 때문에 그 결과물은 아이팟보다는 천테이프가 덕지덕지 붙은 덜컹거리며 돌아가는 낡은 기계에 가깝다. 따라서 마음에 대한 우아한 이론을 만든다는 건 여러모로 불가능에 가깝다.

이 문제를 '우아하게' 공략하는 한 가지 방법은 실제의 마음 대신 마음이 진화한 목적을 묻고 그 질문에 바로 대답하는 것이다. 진화심리학에서 하는 방식이 대체로 이렇다. 진화심리학이 심리학계 바깥에까지 인기(?)를 얻고 있는데는 이런 탓도 좀 있다.

"확률론적 모델링"은 진화심리학 못지 않게 우아한 또다른 접근법이다. 마음은 불확실한 세계 속에서 정보들을 수집하고 통합해서 적절한 판단과 결정을 내려야 한다. 이런 것을 연구하는 학문이 통계학인데 그렇다면 마음의 목적과 통계학의 목적은 비슷하다고 말할 수 있다. 이런 관점에서보면 마음의 문제를 통계학적 문제로 바꿔서 풀어본다면 마음이 어떻게 작동하는지에 대해 실마리를 얻을 수 있을 것이다.

이런 관점에서 연구하는 심리학자들이 적지 않다. MIT의 조슈아 탄넨바움, 런던대학의 닉 차터, UCLA의 앨런 유일, UC버클리의 토마스 그리피스, CMU의 찰스 켐프 등등. 이 접근법의 장점은 심리학 연구도 되고 통계학 연구도 되어서 꿩도 먹고 알도 먹는다는 것이고, 단점은 이게 심리학 연구인지 통계학 연구인지 좀 오락가락 한다는 것이다.

스탠포드의 레라 보로디츠키는 유명한 물리학 농담을 인용하면서 이 접근법을 비판한다. 어느 농부가 농장의 문제를 해결하기 위해 물리학자에게 자문을 구했는데 몇 달 뒤에 이 물리학자가 가져온 해결책은 이렇게 시작했다. "소가 구라고 가정하자.."

소가 구라고 가정하는 것이 이 접근법의 장점이자 단점이라고 할 수 있겠는데 하여간 심리학으로서는 어쩔지 몰라도 통계학 또는 인공지능 연구로서는 분명한 가치가 있다. 원래 이쪽이야 소는 늘 구니까. 올해 PNAS에 실린 켐프와 탄넨바움의 논문은 이 접근법의 장점을 확실히 보여준다.

지식의 체계에는 다양한 것들이 있다. 동물은 계문강목과속종으로 분류할 수도 있고, 크기 순으로 배열할 수도 있으며, 사는 지역에 따라 구분할 수도 있고, 먹고 먹히는 관계로 생각할 수도 있다. 우리는 자료들을 가지고 이 자료에 적절한 체계를 발견하고 이 체계에 맞추어 자료를 분석한다. 보통 통계학에서 하는 부분은 뒷부분, 자료분석부터다. 켐프와 탄넨바음은 이 앞부분까지 통계학적 문제로 한번 다뤄보자는 것이다.

켐프와 탄넨바움의 아이디어를 간단히 설명하면 이렇다. 다양한 체계들은 그래프로 나타낼 수 있다. 여기서 그래프는 막대 그래프, 원그래프할 때 그 그래프가 아니고 흔히 말하는 네트워크를 가리킨다. 이런 그래프들은 아래 그림처럼 단순한 과정을 반복해서 만들어낼 수 있다.

이 과정을 간단히 설명하면 이렇다. 데이터는 부분으로 쪼개거나 각 부분을 이어 관계를 표시하는 것을 반복해서 그래프로 만들 수 있다. 이런 쪼개기와 잇기의 과정에 베이지언 통계학을 접목시켜서 데이터를 더 잘 설명하는 방향으로 그래프를 자꾸 그려나가다보면 결국엔 데이터를 가장 잘 설명하는 그래프를 얻을 수 있다. 정말일까?

켐프와 탄넨바움은 이 과정을 컴퓨터 프로그램으로 만들어 실제 데이터를 입력해서 아래와 같은 결과들을 얻어냈다. A는 동물의 생물학적 정보를 넣은 결과다. 동물들이 우리가 하는 것처럼 계문강목과속종과 같은 나무 형태로 분류된 것을 볼 수 있다. B는 미국의 연방대법원 판사들의 판결 정보를 넣은 결과다. 역시 우리가 하는 것처럼 좌우로 정렬되는 걸 볼 수 있다. C는 색상들을 넣은 건데 뭐 당연히 색상환을 찾아낸다. 이외에도 다른 예들이 있으나 생략.


통계적으로 분석한다면 A는 위계적 군집분석, B는 1차원 척도법, C는 딱히 맞는 게 없는데 하옇든 각각 다른 방법을 사용해야 한다. 켐프와 탄넨바움의 프로그램은 이런 방법 자체를 데이터로부터 결정하는 것이다. 사람들이 실제로 머리 속에서 그래프 이론과 베이지언 통계를 가지고 계산하는 것은 아니지만 켐프와 탄넨바움의 요지는 '마치 그렇게 계산이라도 하는 것처럼' 생각한다는 것이다.

블로그 이웃 중에 한 분이 통계를 위험하게 사용하는 사람들에 대한 글을 쓰셔서(링크는 생략) 이 논문이 떠올랐다. 심리학은 통계학 빼면 시체인데 심리학자 중엔 스피어만처럼 자기 데이터를 분석할 통계방법이 없어서 요인분석을 창시한 사람이 있는가하면, 그 후대에는 죽어라고 배리막스 회전만 하는 사람도 있다. (요인분석은 연구목적에 따라 회전방법을 선택해야 하는데 통계 프로그램의 기본 옵션이 배리막스 회전이라 그냥 그걸로 하는 사람들이 좀 많다. --;)

심리학 아니라도 자기 데이터 어떻게 분석해야할지 몰라서 우왕좌왕하는 사람들이 제법 있는데 켐프와 탄넨바움의 연구는 닥치고 데이터만 넣어주면 나머진 컴퓨터가 다 알아서 한다는 거니까 우왕ㅋ굿ㅋ라고 할 수 있다. 물론 전문적인 통계분석을 대체할 수준은 아니지만 앞으로 이런 연구가 계속되면 정말로 그렇게 되겠다. 그런데 그렇게 되면 이런 사람들의 존재의의가 뭔지 좀 의심스러워지긴 한다. (지금도 의심스럽지만)

참고문헌
Kemp, C. & Tenenbaum, J. B. (2008). The discovery of structural form. Proceedings of the National Academy of Sciences, 105(31), 10687-10692. http://www.pnas.org/content/105/31/10687

by 아이추판다 | 2008/12/08 02:03 | 트랙백 | 핑백(1) | 덧글(20)

◀ 이전 페이지          다음 페이지 ▶