대부분의 분야에서 이론들은 단순한 형태로 출발해 점점 더 복잡해지는 경향이 있기 때문에 복잡한 이론=좋은 이론이라고 생각하는 사람들도 가끔 보이지만 실제로는 단순한 이론이 복잡한 이론보다 더 좋은 이론이다. 이것은 오컴의 면도날이라든가 포퍼의 반증주의 같은 개념으로도 알려져있지만 통계적 관점에서 보면 아주 명확하다.


세상 일에는 우연이라든가 실수라든가 착각 등등이 끼여들기 마련인데 단순한 이론은 말 그대로 단순하기 때문에 이런 '잡음'을 설명에 포함시키기가 아주 어렵다. 반면 복잡한 이론은 설명을 이리저리 뒤틀어 볼 여지가 있어서 설명할 필요가 없거나 설명할 수 없는 현상까지 설명에 넣어버릴 수가 있다. 그래서 뭔가 복잡한 이론을 동원하면 세상에 설명이 안되는 일이 하나도 없는 것 같지만 그건 사후설명이나 그렇고 앞으로 벌어질 일을 예측하려면 완전히 무능하거나 아니면 과거에 있었던 우연한 사건에 쉽게 휘둘리게 된다. 이런 이유 때문에 복잡한 이론보다 단순한 이론이 더 좋은 이론인 것이다.
다만 단순한 이론은 '잡음'만이 아니라 현상 자체에서 설명해야할 부분까지 날려버릴 수가 있다. 그래서 너무 단순한 이론도 별로 쓸모가 없다. 적당히 단순한 이론을 만들어야 하는데 이 '적당히 단순한 이론'을 만드는 문제는 아주 어렵고, 일반적인 해법이 존재하지 않는다. 그래서 과학에서 흔히 사용하는 전략은 일단 지극히 단순한 이론으로 시작해서 아주 보수적인 기준을 가지고 조금씩 이론을 확장해 나가는 것이다.
통계학에서도 여기에 대응하는 전략들이 여러 가지가 있는데 실제로 그마저도 그렇게 간단한 문제가 아니다. 이론을 그냥 말로 때울 때는 좀 더 복잡한 이론이라는 것이 그냥 말이 길어질 뿐이지만, 그 이론을 통계적 모형으로 표현하자면 고도의 수학이 동원되어야 하고 이게 무슨 우주의 비밀을 푸는 대단한 문제가 아닐 경우에는 좀 피곤한 일이기 때문이다.
이 와중에 어떤 사람들이 아주 기발한 생각을 해냈다. 복잡한 이론의 단점은 잡음까지 설명에 포함시켜버린다는 것인데 바꿔말하면 그만큼 현상의 본질도 많이 포함된다. 그런데 잡음이라는 것은 현상의 본질하고 무관하기 때문에 복잡한 이론을 '여러 개' 만들어 놓고 공통점만 찾으면 결과적으로 현상을 가장 잘 예측할 수 있게 된다.
그림으로 보면 좀 더 간단하다. 아래 그림은 사인 함수에다 잡음을 섞은 데이터를 가지고 아주 복잡한 곡선에 맞춘 것인데 곡선 하나 하나를 보면 굉장히 심하게 위아래로 널뛰는 것을 볼 수 있다. 왜냐하면 데이터라는 것은 실제 경향보다 위아래로 조금씩 튀기 마련인데 빨간 곡선은 함수 자체가 워낙 형태가 자유롭다보니까 데이터와 함께 널을 뛰는 것이다.

그런데 가만히 보면 알겠지만 빨간 선 하나 하나는 사인 함수와 동떨어져 있어도 이런 빨간 선 여러 개가 만들어 내는 윤곽은 사인 함수와 거의 똑같다. 실제로 빨간선들을 '평균' 내면 사인 함수와 거의 완벽하게 들어맞는다. 아래 그림에서 초록선이 사인 함수고, 빨간 선은 제각각 널뛰던 빨간 선들을 평균낸 것이다.

이런 접근은 이론적 해석이 중요한 과학에서는 아무 가치도 없지만, 과정이야 어쨌든 예측만 정확하면 그만일 수도 있는 실용적인 분야들에서는 아주 간단하게 정확한 예측을 얻을 수 있는 방법이다. 그냥 여러 셋의 서로 다른 데이터 각각에 단순성에 대한 고려 따위는 안드로메다로 보낸 모형을 끼워맞춰서 여러 개의 예측치를 얻고 그걸 그냥 평균내는 것이다. 데이터가 여러 셋이 없으면 하나의 셋을 무작위로 나누면 된다. 이것이 배깅(bagging: bootstrap aggregating)이라는 기법이다.
흔히들 말하는 집단지성이 작동하는 이유는 여러 가지인데 한 가지 이유는 아주 간단한 통계적 이유 때문에 그렇다. 사람마다 경험이 다르고, 경험을 받아들이는 방식도 단순하지 않다. 그래서 의견도 제각각이기 마련인데 이런 의견들을 단순히 평균 내기만 해도 놀라울 정도로 정확한 예측이 가능해진다. 즉, 집단지성의 한 가지 측면은 "인간을 단위로 구현한 배깅"이라고 할 수 있다.
그런데 배깅이 작동하려면 각각의 모형이 '공통의 본질'과 '서로 다른 잡음'을 포함하고 있어야 한다. 그래야 평균을 내면 잡음들을 서로 상쇄되서 사라지고 '공통의 본질'만 남기 때문이다. 하지만 현실은 시궁창이라 이렇게 매끈하게 잘되지는 않고 평균을 내어봤자 '공통의 본질'과 '공통의 잡음'이 포함되어 있기 십상이다. 운이 나쁘면 부분적으로는 '미미한 본질'과 '거대한 잡음'만 남기도 하고.
다시 집단지성의 문제로 돌아오면 실제로 사람들의 경험이 다르다고 해도 실제로는 비슷한 부분이 많고 게다가 특정한 이슈가 일때는 얼마만큼의 '잡음'을 포함할지도 모르는 단 하나의 데이터를 모두가 경험하게 된다. 게다가 인간은 통계 모형과 달리 서로 영향을 주고 받으므로 잡음은 인간과 인간을 돌아다니면서 점점 증폭되기 마련이다. 결과는 뭐 막장. 그러니까 이렇게 평균적으로 작동하는 형태의 집단지성이란 좀 역설적이지만 그 구성원들이 하나의 '집단'으로 뭉칠 수록 '지성'과는 거리가 멀어지는 것이다.
써놓고 보니 뻔한 이야기네. 이거야 말로 단순한 일을 굳이 복잡하게 설명하는 나쁜 글쓰기의 재귀적 사례다.
덧글
http://www.pnas.org/content/early/2011/05/10/1008636108.abstract
당연히 아닐것같다가도 헷갈려서 질문드립니다
하나의 지역구에서 선거를 한다고 할때 지역구민의 투표 예상 결과를 알기위해 사전 지지도 조사를 하는 경우가 많고 높은 확률로 적중하곤합니다.
그런데 이럴때는 "어떤후보를 지지하세요"라고 묻지 "후보별 득표율이 얼마나 될것 같으세요"라곤 묻지 않습니다.
생각에는 모든 사람들이 현재 상황에따라 후보별 득표율 예상도에 오류를 범하는 요인이 있을것으로 보여집니다. 예를들어 이전대선에서는 허경영후보가 연예인적 인지도를 확보하여 여론조사에서는 집단지성의 오류에 의해 더높은 득표예상을 받을수 있었지만 실제 득표는 그에 미치지 못했던(예상입니다)것과같은 일이발생할 수 있듯이 정확하기 힘들다는것이 저의 예상이지만 조사대상이 실제 유권자이기때문에 실제 득표율과도 상당히 높은 연관이 있을수있다는 생각이 계속 들고있습니다.
모의실험으로 실제 한 지역구의 투표시 충분히 많은수의 두개의 집단을 구성한 후 "어떤 후보를 지지하세요"의 질문과"후보별 예상 득표율은 어떨것같으세요"라고묻고 평균을 내었을때 실제 결과와의 정확도는 어떤편이 어떤이유로 높을까요?
제가 궁금한것은 집단지성이 어느정도까지 가능할것인가에대한 의문인데요
실제로 그 결과를 예측만 하는사람을 모아 평균을 내어도 실제값에 공통의 잡음만 섞인채 결과가 나올까하는게 의문입니다.
후보별 득표율이란것은 예측을 해야하는문제인데요. 지역구민들은 그 문제에대해 표본조사등 객관적이나 수학적인 조사를 하지않았다는 가정하에, 분위기나 후보별 선호에 의해 득표율을 예측하는것 조차 집단지성에서는 가능할것인가 하는 문제입니다.
제생각에는 지지하지않는 후보에 대한 선호도의 예측에서 오류가 나 예측을 실패하지 않을까 예상하는데요. 어떻게 생각하세요?
그런데 득표 예측 같은 경우에는 미디어에 많이 나오고 호의적으로 표현되면 그만큼 영향을 받게 됩니다. 간단히 가정해서, 이 영향이 +5라고 해보지요. 이게 "공통의 잡음"입니다. 앞의 예로 돌아가서 어떤 사람은 N+5+10이라고 예측하고 다른 사람은 N+5-10이라고 예측을 하면 평균을 내도 '개인차'만 상쇄되서 없어지고 여전히 공통의 잡음+5는 남게 됩니다. 결과적으로 평균낸 예측치는 N+5가 되는거지요.
이런 이야기입니다.
예를들어, A가 아이다추판다님의 어느 부분의 글을 아무리 읽고 계속 읽어도 이해가 안가서 별다른 생각의 촉발이 일어나지 않을때
이런것을 보고 관련없는 인지부하가 걸렸다고 말하는건가요?
그리고, 이런상황에서 A는 우직하게 계속 '아이다추님에게 그 부분에 관한 질문'을 한다거나 , 관련있는 자료를 찾아서 읽어야겠다는 생각은 안하고
A는 이해갈때까지 계속 읽고 읽는것을 고집하는상황이 있다고하면
이런걸보고 A와 같은분은
결론: A는 비효율적인 공부를 하는 태도를 지니고 있다.
근거: A같은 학습태도는 학습을 할때 '관련없는인지부하'정도가 다른사람에 비해 크게 하는 태도이기 때문이다.
라고 말할 수있는거죠?
글을 읽고 이해가 안가는 것만 가지고 관련이 없다고 할 수는 없고요, 그 이해가 안가는 이유가 내용 자체가 어렵다면 '관련 있는' 있지부하고, 그냥 표현이나 예가 납득하기 어려워서라면 '관련 없는' 인지부하죠.