클러스터링과 착시

심리학 퀴즈: 토플의 비밀?
퀴즈 답: 토플의 비밀

노컷님이 EM계산법이 클러스터링과 비슷하다는 말씀을 댓글로 달아주셨는데, 아닌게 아니라 EM은 클러스터링에도 사용한다. 클러스터링(clustering)이란 군집분석이라고도 하는데 어떤 자료를 몇 개의 군집으로 나누는 걸 말한다. 아래 그림은 미국 옐로스톤 국립공원의 올드 페이스풀(Old Faithful)이라는 간헐 온천의 분출 자료다. 맨 왼쪽 초록색 점들이 있는 그래프를 보면 분출 패턴이 대략 두 가지라는 걸 알 수 있다. 그러면 이걸 어떻게 둘로 나누느냐. 여기서 EM계산법을 쓸 수 있다.

그래프 출처: Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.의 Fig. 9.1

(a) 우선 임의로 두 군집의 중심을 정한다. 빨간 X와 파란 X다. (b) 그 다음에 빨간 X에 가까운 점들은 빨강 군집, 파랑 X에 가까운 점들은 파랑 군집에 집어넣는다. (c) 새로운 군집을 기준으로 중심을 다시 정한다. (d) 다시 정한 중심을 기준으로 가까운 점들을 다시 분류한다. (e~i) 계속 반복.

여기서 한 가지 의문을 던져볼만 하다. 우리는 그냥 눈으로 척하고 보면 데이터가 두 개의 더미로 나뉘는 걸 알 수 있다. 하지만 이게 정말로 척 봐서 알 수 있는 문제는 아니다. 그렇다면 의식에 떠오르기 전에 머리 속 어디선가 EM계산법과 비슷한 계산이 이뤄질 거라고 생각해봄직하다. 이런 생각이 헬름홀츠가 제안한 무의식의 원래 개념이다.

만약 이런 계산이 정말로 존재하고, 그 계산이 특정한 계산법, 즉 알고리듬을 사용한다면 우리는 그 계산법의 특성을 이용해서 이상한 계산 결과, 착시를 만들어낼 수도 있을 것이다. 네커 육면체도 그런 착시다.


우리가 일상적으로 보는 풍경은 한 가지 계산 결과만을 갖는다. 그래서 그냥 보이는 대로 보인다. 그런데 네커 육면체는 두 가지 계산 결과를 갖기 때문에 가만히 보고 있으면 자꾸 반전이 된다. 이것만으로는 재미가 없지만 좀 더 머릴 쓰면 아래 동영상처럼 더 재미있는 착시도 만들 수 있다.


위의 동영상에서는 가면이 실제로 반전되는데도 여전히 앞쪽을 보고 있는 것처럼 지각되고, 거기에 맞추다 보니 코뚜레나 눈의 움직임이 괴상하게 지각된다. 이런 식으로 여러 가지 착시를 만들어봄으로써 우리는 무의식적 계산 과정에 대해 여러 가지 정보를 얻을 수 있다.

어쨌든 여기서 중요한 건 이거다. 감각 자극이 그대로 머리로 쏟아져 들어오는 것 같아도 그 밑바닥에서는 뭔가 복잡한 계산이 작용하고 있으며 우리가 지각하는 현실은 항상 그 계산의 결과지 실재 그 자체가 아니다. 그런데 여기서 한 걸음 더 나간다면 우리는 굉장히 상식과 어긋나는 가능성과 마주치게 된다. (다음 글에 계속)


※ 이 블로그에서 소개했던 다른 착시들:

by 아이추판다 | 2009/07/20 19:41 | 트랙백 | 덧글(9)

트랙백 주소 : http://nullmodel.egloos.com/tb/1930277
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by 라임에이드 at 2009/07/20 21:11
저런 방식의 클러스터링을 판다님 블로그 어디선가 본거같은데요..
Commented by 아이추판다 at 2009/07/20 21:21
왠지 저도 그런 기분이 드네요. 비슷비슷한 얘기를 워낙 많이 했더니 이 얘기를 한 적이 있는지 없는지도 오락가락해요. ^^;;
Commented by 라임에이드 at 2009/07/20 22:00
아마 물고기의 예를 드셨던거 같은데...넙친지 가자민지? 뭐 이런 식으로요 ㅎㅎ
그나저나 저게 K-means과 동일한건가요?
Commented by 아이추판다 at 2009/07/20 22:21
아 그건 신경망에서 classification의 예죠. ^^ 본문에 있는 그래프는 K-means가 맞습니다.
Commented by klutzy at 2009/07/21 12:09
라임에이드// k-means는 EM의 단순화 버전이라고 생각할 수 있습니다. EM 클러스터링에서는 k개 클러스터의 parameter(가우스 분포라면 평균과 분산)를 구하는 게 목적인데 k-means는 분포같은 건 적당히 뭉개고 어떤 점이 어디 클러스터에 들어가 있는지만 간단하게 찾는 거죠.
http://en.wikipedia.org/wiki/File:Em_old_faithful.gif
Commented by 라임에이드 at 2009/07/21 13:17
"여기선 대충 그럴싸하게 보이는 방식으로 계속 공간을 분할하기로 하자."
이게 EM 계산법과 인간의 인지학/심리학이 만나는 지점이로군요 ㅎㅎㅎㅎ
Commented by 노컷 at 2009/07/21 01:29
리플까지 신경써주시다니 감사 감사요 ㅎㅎ 제가 추가로 하고 싶었던 얘기는 이분법을 사용할 경우 문제 중에 오류가 있어서(문제를 좀 잘못내서 표현에 아리송 하다던지) 정답률 자체가 한계가 있는 문제의 경우. 노이즈가 있는 문제가 "어려운"문제로 분류되는 경우가 있어서 정답률이 예상과 다르게 되는 경우가 존재한다면, 클러스터링을 통해서 여러 군집을 만들 수 있다면 "어려운문제"와 "어렵고 노이즈가 좀 있는 문제", "노이즈가 좀 있지만 쉬운 문제", "잘못낸 문제" 이런 식으로 분류할 수도 있을 거 같다는 생각을 했었죠...제일 처음 문제 보면서요- 다행히 제가 핵심에서 벗어나서 좀 엄하게 생각한 거 같아요 이생각저생각하다보니 문제가 너무 어려워지더라구요 ㅎㅎ
Commented by 아이추판다 at 2009/07/21 23:15
좋은 지적입니다. 사실 문제에 오류가 있다든지 그런 부분도 IRT로 모두 체크할 수 있습니다. 다만 말씀하신 '노이즈' 같은 것은 있고/없고가 아니라 많고/적고니까 클러스터링을 하지는 않지요.
Commented by 노컷 at 2009/07/24 23:14
음...문제의 난이도라는 것도 어렵고/쉽고 지만 단계별로 나눌 수 있는 것처럼 노이즈가 많고/적고 도 의미 있게 나눌수 있지 않을까요? 실제로 풀때의 느낌은 눈에 띄게 문제가 되는 문제들이 존재해서 군집이 형성될 꺼 같거든요 사실이 나누기 어렵지만, 대충 나눠보자 하는 게 클러스터링 아니던가요...직접 리플까지 달아주시니 저로썬 감사할 따름입니다 ㅎㅎ

:         :

:

비공개 덧글

◀ 이전 페이지          다음 페이지 ▶