2009년 10월 05일
텍스트의 통계학: (1) 구글신의 새 마음
우리는 역사상 어느 때보다도 많은 텍스트를 가진 시대를 살고 있다. 이 글을 포함해 인터넷에는 오늘도 수많은 글들이 올라오고 있다. 인터넷 초창기에는 웹사이트가 몇 개 없어서 사람이 하나씩 읽어보고 웹사이트들을 분류했다. 야후가 이렇게 시작한 회사다. 하지만 현재는 이런 식으로 사람이 읽고 웹사이트를 읽고 분류하는 것은 불가능하다. 따라서 컴퓨터를 이용해 텍스트를 분류하고 검색할 필요가 있다.
컴퓨터를 이용해 텍스트를 다루는 것은 컴퓨터 공학에서는 자연어 처리(natural language processing), 언어학에서는 전산언어학(computational linguistics)라고 한다. 심리학에서는 특별한 용어가 없고 다만 이렇게 사람이 하는 걸 컴퓨터로 흉내내는 것을 통틀어 계산 모형(computational model)이라고 부른다.
전산언어학, 자연어처리, 언어에 대한 계산 모형. 뭐라고 부르든 이들 모두는 언어로 된 자료, 특히 텍스트를 사람과 가급적 비슷하게 잘 처리하는 것이 목적이다. 언어학과 심리학에서 이런 기법들은 단순한 도구가 아니라 검증해볼 수 있는 수단이기도 하다. 이론을 계산 모형으로 만들었을 때, 텍스트를 그럴듯하게 잘 처리하면 그 이론이 실제로 사람의 머리 속에서 일어나는 일을 잘 기술한다고 볼 수 있기 때문이다.
하지만 전산언어학을 언어학 이론의 검증 수단으로 보는데 반대하는 사람들도 있다. 계산 모형이 잘 안 돌아가는 게 이론이 구리기 때문인지, 그 이론을 구현할만큼 기술이 받쳐주지 않기 때문인지 잘 구별할 수 없기 때문이다. 그런데 이 말을 뒤집어보면 기술이 발전하면 그때는 괜찮다는 뜻도 되므로, 어쨌든 그런 기술을 연구할 값어치는 있는 셈이다.
전산언어학에서 사용하는 모형에는 두 종류가 있다. 하나는 규칙 중심의 모형이다. 이것은 우리가 예전에 학교에서 영어를 배울 때와 비슷하다. 컴퓨터에 문법과 단어를 몽땅 때려넣는 것이다. 그런데 이 모형은 생각처럼 잘 돌아가지 않는다. 일반적인 텍스트는 학교 문법에 딱딱 맞지도 않고, 오탈자나 신조어도 많기 때문이다. 그럼 사람들이 실제로 말을 하는 문법과 새로 생기는 말, 오탈자로 생길 수 있는 말을 계속 추가해줘야 하는데 이러자면 배보다 배꼽이 커서 실용적이지 못하다.
또 다른 모형은 통계적 모형이다. 이 단어가 무슨 단어인지, 이게 지금 무슨 문법인지 신경쓰지 않고 그냥 통계로만 싹 발라버리는 방법이다. 일단 만들어서 데이터만 잔뜩 때려넣어주면 컴퓨터가 알아서 '학습'하기 때문에 편리하다. 대신 미묘한 맥락을 잘 파악하지 못하는 단점이 있다. 그래서 두 가지 모형을 섞어서 사용하기도 한다.
통계적 모형이 규칙 중심 모형보다 대체로 더 잘 작동하기 때문에, 혹자는 우리의 머리 속에 문법 따위는 존재하지 않고 우리의 뇌가 실제로는 언어를 처리하는 일종의 통계장치와 비슷하다고 주장하기도 한다. 통계적 모형이 나날이 발전하고 있기 때문에 이 주장은 점점 더 설득력을 얻어가고 있다.
한 가지 예를 들어보자. 구글은 검색 결과의 순서를 결정할 때 '페이지 랭크(page rank)'라는 알고리듬을 사용한다. 이 알고리듬은 인터넷의 문서들이 서로 링크로 연결되어 있고, 좋은 문서는 많은 링크를 받는다는 점을 이용한 것이다. 그런데 마음 속에서 개념들도 마치 인터넷의 문서처럼 연결되어 있고, 하나의 개념이 활성화되면 이런 연결 구조를 따라 활성화 확산이 일어난다. 어떤 말을 들으면 이 말과 연결된 개념들이 잇달아 활성화가 되고 다른 개념들과 잘 연결된 개념이 가장 활성화가 되어 머리 속에 떠오른다. 이 과정을 수학적으로 기술해보면 페이지 랭크 알고리듬과 매우 비슷하게 나온다. 실제로 실험을 해보면 페이지 랭크 알고리듬은 사람들이 자유 연상을 했을 때 어떤 단어를 떠올릴 확률을 다른 계산 모형보다 더 잘 예측한다(Griffiths et al., 2007). 따라서 이론적으로는 모든 인터넷 페이지를 외우고 있는 사람에게 어떤 질문을 던졌을 때 그 사람이 가장 먼저 떠올릴 웹페이지는, 구글에서 그 질문을 검색했을 때 결과에서 제일 먼저 나올 페이지와 같다. 덜덜덜.
물론 앞에서 말한 이유 때문에 실제 텍스트를 잘 처리하는 계산 모형이 우리의 마음을 잘 설명하는 이론이라고 장담할 수는 없다. 어쨌든 재미있기도 하고, 포스팅 소재도 마침 다 떨어졌으므로 텍스트를 다루는 통계적 모형에 대해 하나씩 살펴보자. 언제나 그렇지만 자세한 수학적 설명은 지양하고 과감한 왜곡과 단순화에 기반한 흥미 위주의 연재가 될 것이다.
(계속)
참고 문헌
Griffiths, T. L., Steyvers, M., & Firl, A. (2007). Google and the mind: Predicting fluency with PageRank. Psychological Science, 18, 1069-1076.
그림으로 보는 통계: (1) 쥐와 사람의 관계
그림으로 보는 통계: (2) 쥐는 살찌고 사람은 굶는다
그림으로 보는 통계: (3) 바람난 남편, 외계인 아내
컴퓨터를 이용해 텍스트를 다루는 것은 컴퓨터 공학에서는 자연어 처리(natural language processing), 언어학에서는 전산언어학(computational linguistics)라고 한다. 심리학에서는 특별한 용어가 없고 다만 이렇게 사람이 하는 걸 컴퓨터로 흉내내는 것을 통틀어 계산 모형(computational model)이라고 부른다.
전산언어학, 자연어처리, 언어에 대한 계산 모형. 뭐라고 부르든 이들 모두는 언어로 된 자료, 특히 텍스트를 사람과 가급적 비슷하게 잘 처리하는 것이 목적이다. 언어학과 심리학에서 이런 기법들은 단순한 도구가 아니라 검증해볼 수 있는 수단이기도 하다. 이론을 계산 모형으로 만들었을 때, 텍스트를 그럴듯하게 잘 처리하면 그 이론이 실제로 사람의 머리 속에서 일어나는 일을 잘 기술한다고 볼 수 있기 때문이다.
하지만 전산언어학을 언어학 이론의 검증 수단으로 보는데 반대하는 사람들도 있다. 계산 모형이 잘 안 돌아가는 게 이론이 구리기 때문인지, 그 이론을 구현할만큼 기술이 받쳐주지 않기 때문인지 잘 구별할 수 없기 때문이다. 그런데 이 말을 뒤집어보면 기술이 발전하면 그때는 괜찮다는 뜻도 되므로, 어쨌든 그런 기술을 연구할 값어치는 있는 셈이다.
전산언어학에서 사용하는 모형에는 두 종류가 있다. 하나는 규칙 중심의 모형이다. 이것은 우리가 예전에 학교에서 영어를 배울 때와 비슷하다. 컴퓨터에 문법과 단어를 몽땅 때려넣는 것이다. 그런데 이 모형은 생각처럼 잘 돌아가지 않는다. 일반적인 텍스트는 학교 문법에 딱딱 맞지도 않고, 오탈자나 신조어도 많기 때문이다. 그럼 사람들이 실제로 말을 하는 문법과 새로 생기는 말, 오탈자로 생길 수 있는 말을 계속 추가해줘야 하는데 이러자면 배보다 배꼽이 커서 실용적이지 못하다.
또 다른 모형은 통계적 모형이다. 이 단어가 무슨 단어인지, 이게 지금 무슨 문법인지 신경쓰지 않고 그냥 통계로만 싹 발라버리는 방법이다. 일단 만들어서 데이터만 잔뜩 때려넣어주면 컴퓨터가 알아서 '학습'하기 때문에 편리하다. 대신 미묘한 맥락을 잘 파악하지 못하는 단점이 있다. 그래서 두 가지 모형을 섞어서 사용하기도 한다.
통계적 모형이 규칙 중심 모형보다 대체로 더 잘 작동하기 때문에, 혹자는 우리의 머리 속에 문법 따위는 존재하지 않고 우리의 뇌가 실제로는 언어를 처리하는 일종의 통계장치와 비슷하다고 주장하기도 한다. 통계적 모형이 나날이 발전하고 있기 때문에 이 주장은 점점 더 설득력을 얻어가고 있다.
한 가지 예를 들어보자. 구글은 검색 결과의 순서를 결정할 때 '페이지 랭크(page rank)'라는 알고리듬을 사용한다. 이 알고리듬은 인터넷의 문서들이 서로 링크로 연결되어 있고, 좋은 문서는 많은 링크를 받는다는 점을 이용한 것이다. 그런데 마음 속에서 개념들도 마치 인터넷의 문서처럼 연결되어 있고, 하나의 개념이 활성화되면 이런 연결 구조를 따라 활성화 확산이 일어난다. 어떤 말을 들으면 이 말과 연결된 개념들이 잇달아 활성화가 되고 다른 개념들과 잘 연결된 개념이 가장 활성화가 되어 머리 속에 떠오른다. 이 과정을 수학적으로 기술해보면 페이지 랭크 알고리듬과 매우 비슷하게 나온다. 실제로 실험을 해보면 페이지 랭크 알고리듬은 사람들이 자유 연상을 했을 때 어떤 단어를 떠올릴 확률을 다른 계산 모형보다 더 잘 예측한다(Griffiths et al., 2007). 따라서 이론적으로는 모든 인터넷 페이지를 외우고 있는 사람에게 어떤 질문을 던졌을 때 그 사람이 가장 먼저 떠올릴 웹페이지는, 구글에서 그 질문을 검색했을 때 결과에서 제일 먼저 나올 페이지와 같다. 덜덜덜.
물론 앞에서 말한 이유 때문에 실제 텍스트를 잘 처리하는 계산 모형이 우리의 마음을 잘 설명하는 이론이라고 장담할 수는 없다. 어쨌든 재미있기도 하고, 포스팅 소재도 마침 다 떨어졌으므로 텍스트를 다루는 통계적 모형에 대해 하나씩 살펴보자. 언제나 그렇지만 자세한 수학적 설명은 지양하고 과감한 왜곡과 단순화에 기반한 흥미 위주의 연재가 될 것이다.
(계속)
참고 문헌
Griffiths, T. L., Steyvers, M., & Firl, A. (2007). Google and the mind: Predicting fluency with PageRank. Psychological Science, 18, 1069-1076.
그림으로 보는 통계: (1) 쥐와 사람의 관계
그림으로 보는 통계: (2) 쥐는 살찌고 사람은 굶는다
그림으로 보는 통계: (3) 바람난 남편, 외계인 아내
# by | 2009/10/05 19:32 | 트랙백(1) | 핑백(2) | 덧글(19)














