2012/04/05 19:47

통계학적 밑장빼기

결론을 증거에 맞추기에서 나는 다음과 같이 설명했다.

"차이가 없다"는 양방검정(two-tailed test)의 귀무가설이다. 이것을 기각했을 때 우리가 얻을 수 있는 결론은 "차이가 있다"라는 것 뿐이고 그 이상으로 해석해서는 안된다. 만약 "더 크다"라는 결론을 원했다면 처음부터 단방검정(one-tailed test)을 해야 한다. 분석은 양방검정으로 하고, 해석은 단방검정으로 한다면 연구자는 가설을 데이터로 검정하는 것이 아니라, 데이터에 가설을 맞추는 것이다.


통계적 가설검정은 여러 분야에 걸쳐 광범위하게 사용되는 통계 방법인데, 그 비뚤어진 논리 때문인지 아주 심각하게 오용되는 경우가 매우 흔하다. 가장 대표적인 예는 앞선 글에서 말했듯이 "분석은 양방으로, 해석은 단방으로"라는 것이다. 다시 말해 "차이가 있다"라는 결론이 나왔는데 해석은 "더 크다"나 "더 작다"로 해석하는 행태를 말한다. 여기에 대해서 여러 경로로 질문이 들어왔는데 이 글에서는 여기에 대해서 좀 자세히 설명하려고 한다.

말로 설명하기가 좀 복잡하니까 한 가지 사례를 살펴보도록 하자. 아래 표는 컴퓨터 모의실험을 통해 유의수준 5%에서 t-검정을 1만번씩 실시한 결과이다. 모든 조건에서 표본 수는 30건이다. (프로그램: two_tailed.py, python 2.7 + numpy 1.6 + scipy 0.9)



일단 단방검정으로 대립가설이 μ > 0인 경우를 보자.(μ는 '뮤'라고 읽는다) 일단 두번째 줄을 먼저 보면 실제로 μ가 0일 때 1만번 중에 484번은 유의미한 결과('크다')가 나온다. 1만 번 중에 484번이면 대략 5%라는 것을 알 수 있다. 유의수준 5%라는 것은 이런 의미다.

대립가설을 μ ≠ 0이라고 해서 분석은 양방으로 하고 해석은 단방처럼 한 경우에도 실제로 μ가 0이면 1만 번 중에 499번은 유의미한 결과('크다'와 '작다')가 나온다. 역시 대략 5%이다. 그런데 여기서 문제는 '크다'와 '작다'가 데이터에 따라서 널을 뛴다는 것이다. 499번 중에 249번은 '크다'는 해석이 나오고 250번은 '작다'는 해석이 나온다.

불운이든 연구자가 멍청한 탓이든 아무런 영향이 없는 현상을 두고 실험을 하나 했다고 해보자. 단방검정을 하면 5%는 잘못된 것이지만 그럼에도 불구하고 똑같은 실험을 두 번 하면 5%는 재현이 된다. 두 번 째 실험도 잘못될 수 있기 때문이다. 그런데 양방검정을 하고 단방검정처럼 해석하면 그나마도 2.5%만 재현이 된다. 재현 자체가 잘 안되는 것이다.

그러면 이번에는 실제로는 μ가 0보다 작은 경우(μ = -0.1)를 한 번 보도록 하자. 이 때는 단방검정을 하면 1만번 중에 9833번은 유의미한 결과가 안 나오고, 167번은 유의미한 결과가 나오기는 했지만 잘못된 결과가 나온다. 실제로는 μ가 0보다 작은데 μ가 0보다 크다는 해석을 내놓기 때문이다. 반면 양방으로 분석하고 단방으로 해석하면 훨씬 더 좋은 결과를 얻을 수 있는데 757번은 제대로 결과가 나온다. 9186번은 결과가 안 나오고, 정반대의 결론은 57번 밖에 나오지 않는다. 이것이 분석은 양방으로 하고 해석은 단방으로 하는 경우의 유일한 장점이다.

정작 가설과 실제가 일치할 경우를 보면 아주 기이한 결과가 나오는 것을 볼 수 있다. 일단 단방검정을 하면 1만번 중에 1314번은 올바른 해석을 내린다. 8686번은 결과가 안 나온다. 분석은 양방, 해석은 단방으로 하면 741번은 올바른 해석이 나오고 64번은 정반대의 해석, 9195번은 결과가 나오지 않는다. 가설과 실제가 일치하는데도 올바른 해석은 잘 나오지 않는 반면, 정반대의 해석이 나오는 경우가 생기는 것이다.

정리하자면 차이가 없거나 가설과 실제가 일치할 경우에는 단방검정이 더 좋은 결과를 내놓는 반면, 가설과 실제가 불일치할 경우에는 분석은 양방, 해석은 단방으로 하는 쪽이 더 낫다. 그런데 가설과 실제가 일치하는지 아닌지는 알 수 없고, 분석방법을 선택하는 것은 연구자의 기대와 가정에 바탕을 둔다. 간단히 말해 분석은 양방, 해석은 단방으로 한다는 것은 "자신의 가설과 실제가 불일치할 경우"를 기대하고 연구를 한다는 뜻이다. 이상한 이야기가 아닌가?

연구자들이 분석은 양방, 해석은 단방으로 하는 이유는 대충 두 가지다. 한 가지는 자신의 가설에 자신이 없거나 확고한 가설 없어서, 일단 돌려보고 결과가 뭐라도 나오면 거기에 맞춰 논문을 쓰려는 생각이 있기 때문이다. 또 한 가지는 좀 어이없는 이유인데 사회과학에서 흔히 쓰는 통계 패키지인 SPSS로 가설검정을 돌리면 양방검정 결과 밖에 나오지 않기 때문이다. 어떤 사람들은 심지어 수치도 확인해보지 않아서 양방검정을 하고 수치가 작은 쪽인데도 '크다'라고 해석하기도 한다.

분석은 양방, 해석은 단방으로 하는 것이 허용될 수 있는 경우는 한 가지 뿐이다. 정말로 어떤 결과가 나올지 알 수 없는 경우에 일단 한 번 돌려 볼 때다. 그러나 이 때도 이 결과를 그대로 보고하거나 출판해서는 안되고, 반드시 새로운 데이터를 모아서 단방검정으로 그 결과를 확인해보아야 한다.

덧붙여, 가설검정은 했다가 결과가 나오지 않으면 거기서 그만두고 잊어버려야 한다. 통계 분석은 결코 '밤을 세워' 해서는 안되는 일이다. 왜냐하면 모든 통계 분석은 오류의 가능성을 포함하고 있기 때문에 많이 하면 많이 할 수록 반드시 오류가 발생한다. 밤 세워 분석을 하다보면 그게 사실이든 아니든 '유의미한' 결과를 찾을 수 있는데, 실제로는 무의미할 뿐만 아니라 해악을 끼치는 일이다.

경우는 좀 다르지만 단방검정을 했다가 결과가 안 나오면 양방검정을 하는 것에 대한 데이비드 호웰의 설명을 들어보자. 대략의 논리는 비슷하다.

일반적으로 일방검증보다 양방검증이 훨씬 더 많이 사용된다. 그 첫 번째 이유는 자료가 어떤 형태를 취할지 연구자가 알지 못해서 어떤 결과에든 대비해야 하는 일이 있기 때문이다. 이런 경우가 많지는 않지만, 탐색적 연구에서는 이런 경우가 있을 수 있다.

양방검증을 선호하는 또 다른 흔한 이유는 연구자들이 결과가 어떤 방향으로 나올지 확신하기는 하지만 자기 생각이 틀릴 경우를 대비하려는 생각 때문이다. 이런 경우는 여러분이 상상하는 것보다는 자주 일어난다. (아주 잘 만들어진 가설도 반대 방향으로 표현되는 이상한 경향이 있는데, 그이유는 일이 터진 다음에야 드러난다.) 결과가 예상과 반대되는 방향으로 나오는 경우 흔히 하는 질문은 "일방검증을 계획한 다음, 결과가 반대 방향으로 나오면 그때 가서 양방검증을 하면 안되는가?"하는 것이다. 이런 질문을 종종 듣는데, 속임수를 부리려는 것보다는 가설검증의 논리를 잘못 이해한 사람들이 이런 질문을 종종 한다. 만약 처음에 분포 왼쪽의 극단적인 5%를 기각역으로 잡은 실험을 시작했다가 방향을 돌려 분포의 오른쪽 극단의 2.5%에 해당하는 결과도 기각한다면, 7.5% 수준으로 결정을 하게 된다. 이 경우 한쪽 방향으로 나오는 결과의 5%를 기각하고 (결과가 예상한 방향으로 나온다면), 또 반대 방향으로 나온 결과 중 2.5%를 기각하게 된다(결과가 예상과 반대 방향으로 나오는 경우). 즉 5% + 2.5% = 7.5%가 된다. 달리 말하면, 동전던지기에서 앞면이 나오면 내가 아이스크림을 먹지만, 동시에 동전의 어느 면이 나왔는지 본 다음 "뒷면"에 거는 권리도 내가 갖는 그런 내기를 하겠느냐는 것이다. 아니면 동전을 던져서 당신이 이기는 쪽으로 나온 다음에 내가 "삼판양승"이라도 뒤늦게 외치고 나오면 내 말을 들어주겠느냐는 것이다. 아마 이 두 가지 다 받아들이지 않을 것이고, 또 그래야 한다. 같은 이유로 일방검증을 할 것인지, 아니면 양방검증을 할 것인지는 자료를 수집하기 전에 정해야 한다. 이것이 왜 양방검증이 주로 사용되는가 하는 이유 중의 하나이다.

David C. Howell 지음, 신현정 등 옮김, "행동과학을 위한 통계학: 제5판", 시그마프레스, 155~156쪽.

공유하기 버튼

 

2012/04/04 19:55

결론에 증거를 맞추기 수학/통계학

문대성이 발로 차버린 기회들: 문대성의 논문 표절에 대한 언론 보도는 정당한가? (슬로우뉴스)
문대성 표절을 비판하는 근거는 여전히 정당하다 (deulpul님)

슬로우뉴스 기사는 내가 기고한 것이다. 나는 deulpul님의 말처럼 "지금처럼 복붙의 가시적이고도 충격적인 더 큰 증거들이 널려있는 상황"에서 표절 여부를 검토할 때 별로 비교할 필요도 없는 부분들을 왜 비교해야 하는지 의문이다.

#1.

문대성 표절을 두고 트위터에서 "6단어만 겹치면 표절"이라는 이야기가 나왔다. 그런데 그게 어떤 6단어냐에 따라 이야기가 전혀 달라질 수 있다.

통계분석보다도 표현이 많이 겹치는 부분이 실험 참여자를 보고하는 대목이다. 예를 들어 많은 심리학 실험은 심리학 수업을 듣는 학생들을 대상으로 한다. 이걸 논문에 쓴다면 대충 "140 ( 90 women, 50 men; Mage = 21.2 years, SD = 1.4) undergraduate students who participated for course credit" 뭐 이런 식으로 쓰게 된다. 이게 몇 단어냐 하면 벌써 18단어다. 여기에 앞뒤로 이말 저말 붙이다보면 수 십 단어에 해당하는 문장이라도 얼마든지 완전히 똑같을 수 있다. 이걸 표절이라고 한다면 그런 표절 논문은 수 천 편도 더 찾을 수 있다. 실제로 아무 저널이나 최신호를 열어서 논문을 한 편 씩 열어봤는데 단 세 편만에 거의 똑같은 표현을 찾아냈다.

Sixty-four (30 women, 34 men; Mage = 18.78 years, SD = 0.85) European American students from the University of Michigan and 69 (48 women, 21 men;Mage = 19.06 years, SD = 1.49) Russian students from the Moscow State Regional University participated for course credit.

Grossmann, I. et al. (2012). Culture, attention, and emotion. Journal of Experimental Psychology: General, 141(1), 31-36.


이 논문하고 표현이 10단어 20단어 겹치는 논문도 시간만 있으면 얼마든지 찾을 수 있을 것이다. 문대성 논문의 경우에는 서론에서 통으로 베낀 부분 하나면 표절 논란은 거기서 끝난 것이지 표절하지 않아도 원래 비슷한 부분까지 일일이 비교할 필요는 없다.

#2

deulpul님의 글에서 이 대목은 아주 심각한 문제가 있다.

이 문제를 연구가설로 만드는 방법은 두 가지다. 하나는 '오덕 회원들의 키는 평균보다 작다'라는 것이고, 이것은 문대성의 방법이다. 다른 하나는 '오덕 회원들의 키는 전체 평균(175cm)과 차이가 있다'라는 것이고, 이것은 김백수의 방법이다. 전자는 그 자체로 차이가 의미가 있는지를 밝혀내는 구조로 되어 있으니 넘어가고, 후자를 보자.

이 경우 영가설(귀무가설)은 '오덕 회원들의 키는 전체 평균과 차이가 없다(오덕 평균 = 175)이다'이고, 연구가설은 '그렇지 않다'이다. 검증을 하면 그 결과를 알 수 있는데, 차이가 있는 것으로 나왔다고 치자. 이게 무슨 말인가? 오덕들은 평균보다 키가 크다는 결론인가? 당연히 오덕 회원들 키는 평균보다 작다는 결론으로 해석하게 된다. 원래의 데이터의 성격이 그렇게 되어 있기 때문이다.

김백수의 논문도 가설은 '차이가 있나 없나?'라는 모양을 취하고 있지만 그 결과를 해석하는 데 있어 기술 통계량(descriptive statistics)의 경향성에 근거하여 '증가하였다' '향상되었다' '높은 것으로 나타났다'라는 표현을 쓰고 있다(아래 그림). 이 점을 밝혀내는 것이 자기 논문의 원래 목표인 것이므로 당연한 일이다. 연구 논문에서 분석 결과 차이가 있다고만 보고하고 그 내용을 해석하지 않는 것은, 똥 누러 가서 오줌만 싸고 있는 형국인 셈이다.


이렇게 하면 표절이 문제가 아니라 연구 조작이다. 연구 조작까지는 아니라도 부정직한 짓이다. 아니 결국 연구 조작이군. 많은 연구자들이 간과하는 부분인데 이렇게 하면 절대로 안된다.

"차이가 없다"는 양방검정(two-tailed test)의 귀무가설이다. 이것을 기각했을 때 우리가 얻을 수 있는 결론은 "차이가 있다"라는 것 뿐이고 그 이상으로 해석해서는 안된다. 만약 "더 크다"라는 결론을 원했다면 처음부터 단방검정(one-tailed test)을 해야 한다. 분석은 양방검정으로 하고, 해석은 단방검정으로 한다면 연구자는 가설을 데이터로 검정하는 것이 아니라, 데이터에 가설을 맞추는 것이다. 양방검정과 단방검정을 괜히 나눠놓은 것이 아니다.

물론 문대성이 이걸 알고 "향상될 것이다"라고 썼을 거라고는 나도 믿지 않는다.

#3

진중권이 비교해놓은 많은 부분은 deulpul님의 말씀대로 "다른 명백한 표절 혐의를 놓고 따지다 보니 제목 부분에서조차 유사한 점이 발견된다는 결과적인 발견과 문제제기"이다. 이것은 #2와 비슷하다. 증거로부터 표절 여부를 결론짓는 것이 아니라, 표절 여부를 이미 결론내린 상태에서 증거를 찾아서 끼워맞춘 것이다. 이것이 정당한가? 나는 그렇게 생각하지 않는다.

공유하기 버튼

 

2012/04/04 16:58

그냥 애들을 좀 내버려 두라고 인지과학

며칠 전 진보신당 총선 공약집에 나온 내용 한 줄 때문에 약간의 논란이 있었다.

지성, 정서, 의지의 발달을 전 교과의 공통된 지향으로 설정 (예: 악기 연주 능력습득은 필수로, 미적분은 선택으로)

건국이래 한국의 교육과정은 여러 번 바뀌었지만 그 목표는 믿거나 말거나 항상 "홍익인간"으로 설정되어 있었다. 현행 교육과정 총론에서도 "지성, 정서, 의지의 발달을 전 교과의 공통된 지향으로 설정"과 비슷한 표현은 셀 수 없이 많이 나온다. 예로 든 악기 연주나 미적분도 마찬가지인데, 현재도 리코더나 단소 정도의 악기 연주 능력 습득은 포함되어 있다. 어떤 사람들은 진보신당의 공약이 미적분의 중요성을 폄훼하고 있다고 반발했지만, 원래 미적분은 교육과정이 개정될 때마다 필수와 선택 사이를 오락가락했다.

간단히 말하면 위의 내용은 구절 하나 하나를 보았을 때는 아무런 문제가 없거나 "진보정당의 교육 정책"치고 지나치게 얌전하다. 그런데 이 세 가지(통합적 발달, 악기 필수, 미적분 선택)를 결합해서 아주 우스꽝스러운 이야기가 된다. "지성, 정서, 의지의 발달"과 "악기 연주", "미적분"은 서로 아무 상관도 없는 이야기이기 때문이다.

좌우를 막론하고 사람들이 크게 잘못 생각하고 있는 사실이 있다. 가끔 무슨 뉴스가 나오면 흔히 나오는 반응 중에 하나가 "학교에서는 뭘 가르치는 거냐, 학교에서 저것을 가르쳐야 한다"라는 것이다. 그런데 어떤 것이 중요하다는 것과 어떤 것을 학교에서 가르쳐야 한다는 것은 전혀 다른 이야기다. 사랑은 우리 삶에 중요하지만, 연애를 학교에서 가르친다면 끔찍한 일이 될 것이다. (성교육과는 다른 이야기다)

보통 교육은 싼 값에 많은 사람에게 최소한의 것을 가르치는 저비용 저효과의 교육 시스템이다. 학교에서 가르치는 악기가 플라스틱 리코더가 될 수 밖에 없는데는 음악 교육자들의 취향이 저질이기 때문이 아니라 많은 학생들에게 싸게 가르칠 수 있는 악기가 그 정도기 때문이다.

그리고 음악이든 수학이든 그것을 통해 어떤 심오한 이해를 학생들에게 전달하는 일은 현실의 학교 교실에서는 일어나지 않는다. 현실적 한계도 있지만 아예 가르치치지 못하도록 되어 있다. 교육과정에는 성취기준과 평가기준이 명시되어 있고, 수능에서는 이 범위를 벗어나는 문제는 절대로 출제하지 않는다. 아무리 고등학교에서 배운 내용으로부터 손 쉽게 연역할 수 있는 내용이라고 해도 교과서에 없으면 수능에서는 아웃이다.

그 이유는 보통교육의 한계도 있지만 모든 교육의 공통적 한계 때문이기도 하다. 대개의 경우 A를 통해 B를 가르친다라는 목표는 거의 달성되지 않는데, 대부분의 학생들은 A를 배우다가 중간에 퍼져버리기 때문이다. 교육과정을 죽 읽어보면 총론에서는 이 과목을 통해 학생들에게 B를 함양하고 C를 고취한다는 거창한 목표가 나오지만 세부내용으로 가면 A는 알아 먹겠니 젠장..이라는 투로 슬쩍 바꾼다.

사람의 인지용량에는 한계가 있어서 그 용량을 초과하는 정보는 주어져도 학습하지 못한다. (정보는 간결하게, 생각은 깊게 참고) 또, 사람들은 하나의 지식을 배운 맥락과 다른 맥락에 잘 적용하지 못한다 (공부는 배운 자리에 머문다 참고) 어떤 교육이든 A를 통해 B를 가르치기보다는 A나 제대로 가르치면 다행이고 보통 교육에서는 A도 가르치기 어려워서 a로 가르친다.

진보신당 공약의 문제는 악기를 가르치고 미적분을 안 가르치겠다는 데 있는 게 아니라 그것이 "지성, 정서, 의지의 발달"에 기여한다는 발상에 있다. 미적분을 안 가르치면 지성이 발달하나, 정서가 발달하나, 의지가 발달하나? 굳이 미적분을 선택으로 돌리는 이유라면 대부분의 고등학생이 정상적인 일정으로 소화할 수가 없기 때문이다. 단지 그 뿐이다. 지성, 정서, 의지와 아무 관련도 없다. 이런 말이 나오는 이유는 정책을 쓴 사람이 수학이나 과학을 싫어하기 때문일 뿐이라고 생각한다. 내가 짜증나는 부분도 이 면면한 반과학주의지 뭘 가르치고 만다는 내용은 아니다.

사실은 음악의 경우도 마찬가지다. 진보신당이 이런 공약을 쓰다니 놀랠 노자인데, 몇 년 전 인터넷을 시끄럽게 했던 글을 다시 떠올려보자.

3월 20일, 그를 만나기 위해 그가 지휘하는 라디오 프랑스 오케스트라의 공연을 보러 샤틀레 극장에 갔다. 두 시간에 걸쳐 진행된 그 콘서트는 완벽하게 우리를 고무시켰다. 나와, 함께 간 성악을 공부하는 학생당원은 이토록 아름다운 음악을 만들어내는 사람의 정신이 맑지 않을 수 없고, 정의와 진리를 담지 않을 수 없다는데 전적으로 동의했다.

목수정, 경악! 음악가 정명훈이 쏟아낸 말들 "계집애들이말야, 한밤중에 찾아와서", 레디앙, 2009년 3월 23일

우리는 여기서 다시 한 번 사람들에게 A를 통해 B를 가르친다는 것의 어려움을 깨달을 수 있다. 진보신당은 저 일에서 배운 바가 아무 것도 없는 것 같다. 성격 나쁜 아티스트의 예는 정명훈 말고도 차고 넘치게 찾을 수 있지 않겠는가. 근데 무슨 악기 연주 능력?

진보신당만이 아니라 다른 사람들도 다 마찬가지인데 현행 교육과정에도 음악 교과 총론을 보면 뭐 정서를 함양한다는 둥 어쨌다는 둥 하는 이야기가 있지만 플라스틱 리코더로 동요 분다고 퍽이나 정서가 함양되겠다. 물론 악기 연주를 배우면 어떤 긍정적인 효과가 있을 수도 있는데 그건 악기를 배웠기 때문이 아니라 박자에 맞춰 몸을 움직이는 다른 무슨 활동을 해도 마찬가지일 것이다. 그냥오락실 가서 DDR게임이나 몇 판하는 쪽이 낫지 않을까? 수학도 마찬가지인데 미적분을 가르쳐 봐야 대부분의 학생은 그냥 미분 공식 가지고 우왕좌왕 하다 끝난다.

그러니까 나는 진보신당의 정책도 물론이지만 이에 반대해서 수학의 중요성을 역설하는 사람들에게도 동의할 수 없는데 보통교육에서 기대할 걸 기대해야 한다. 학교에서 학생들에게 무언가를 가르쳐야 한다는 거의 모든 주장은 그것이 '중요하다'는 점만 말할 뿐 그것을 학교에서 '효과적으로 가르치기 어렵다'는 점은 대개 무시한다. 그러니 결국 학생들만 들들 볶이는 것으로 끝날 수 밖에 없다. 아마 새누리당이나 민주당 공약집을 찾아봐도 비슷한 내용은 있지 않을까하는데 꿈 깨라고 말하고 싶다.

내가 하고 싶은 말은 하나 뿐이다. "그냥 애들을 좀 내버려 두라고."

공유하기 버튼

 

2012/03/20 22:58

파블로프의 개와 어린왕자의 여우

오늘 흥한 트윗

"파블로프의 개"가 '개'라서 그런지 욕으로 쓰는 사람들이 있는데, 알고보면 "어린 왕자의 여우"도 똑같은 고전적 조건화라는.. "네가 4시에 온다면 난 3시부터 행복할거야" #


참고로 "파블로프의 개"는 종소리(조건자극) -> 먹이(무조건자극) -> 침(무조건반응)을 반복해서 종소리(조건자극) -> 침(조건반응)을 만든 것이고, "어린왕자의 여우"는 3시 -> 4시 -> 어린왕자 -> 행복을 반복해서 3시 -> 행복을 만든 것이다. (이건 고차적 조건화)

고전적 조건화로서 "데이트":

상대를 만난다(조건 자극) -> 재밌는 것을 하거나 맛있는 것을 먹는다(무조건 자극) -> 기분이 좋아진다(무조건반응).

이런 '학습'을 반복하면

상대를 만나기만해도(조건자극) -> 기분이 좋아진다(조건반응)!! #


하지만 행동주의가 망한 이유가 다 있습니다... 최강의 인지부조화가 기다리고 있기에 돈을 많이 쏟아 부으면 "이 사람을 좋아해서 기분 좋다"와 "이 사람이 돈이 많아서 기분 좋다" 중에 후자로 갑니다 ㅋ #


투자는 많이 하되, 상대방이 돈이 원인인 줄 모르게 해야죠! #


이건 연애 밸리로 보내야 하나, 아니면 과학 밸리로 보내야 하나..

p.s. 조교닷컴의 학습심리학 문제집을 풀어보시면 좀 더 이해가 될지도?

공유하기 버튼

먹이(무조건자극) -> 침(무조건반응)을 반복해서 종소리(조건자극) -> 침(조건반응)을 만든 것이고, "어린왕자..." spismobile="0" spwritertid="" spwriterbid="" spwriternm="아이추판다 (이글루스)" spcategory="미분류" sprecommendee_id="" sprecommendee_nm="" sptag1="학습심리학" sptag2="" sptag3="" sptag4="">
 

2012/03/16 02:27

집단지성의 통계적 해석 수학/통계학

대부분의 분야에서 이론들은 단순한 형태로 출발해 점점 더 복잡해지는 경향이 있기 때문에 복잡한 이론=좋은 이론이라고 생각하는 사람들도 가끔 보이지만 실제로는 단순한 이론이 복잡한 이론보다 더 좋은 이론이다. 이것은 오컴의 면도날이라든가 포퍼의 반증주의 같은 개념으로도 알려져있지만 통계적 관점에서 보면 아주 명확하다. 

세상 일에는 우연이라든가 실수라든가 착각 등등이 끼여들기 마련인데 단순한 이론은 말 그대로 단순하기 때문에 이런 '잡음'을 설명에 포함시키기가 아주 어렵다. 반면 복잡한 이론은 설명을 이리저리 뒤틀어 볼 여지가 있어서 설명할 필요가 없거나 설명할 수 없는 현상까지 설명에 넣어버릴 수가 있다. 그래서 뭔가 복잡한 이론을 동원하면 세상에 설명이 안되는 일이 하나도 없는 것 같지만 그건 사후설명이나 그렇고 앞으로 벌어질 일을 예측하려면 완전히 무능하거나 아니면 과거에 있었던 우연한 사건에 쉽게 휘둘리게 된다. 이런 이유 때문에 복잡한 이론보다 단순한 이론이 더 좋은 이론인 것이다.

다만 단순한 이론은 '잡음'만이 아니라 현상 자체에서 설명해야할 부분까지 날려버릴 수가 있다. 그래서 너무 단순한 이론도 별로 쓸모가 없다. 적당히 단순한 이론을 만들어야 하는데 이 '적당히 단순한 이론'을 만드는 문제는 아주 어렵고, 일반적인 해법이 존재하지 않는다. 그래서 과학에서 흔히 사용하는 전략은 일단 지극히 단순한 이론으로 시작해서 아주 보수적인 기준을 가지고 조금씩 이론을 확장해 나가는 것이다.

통계학에서도 여기에 대응하는 전략들이 여러 가지가 있는데 실제로 그마저도 그렇게 간단한 문제가 아니다. 이론을 그냥 말로 때울 때는 좀 더 복잡한 이론이라는 것이 그냥 말이 길어질 뿐이지만, 그 이론을 통계적 모형으로 표현하자면 고도의 수학이 동원되어야 하고 이게 무슨 우주의 비밀을 푸는 대단한 문제가 아닐 경우에는 좀 피곤한 일이기 때문이다.

이 와중에 어떤 사람들이 아주 기발한 생각을 해냈다. 복잡한 이론의 단점은 잡음까지 설명에 포함시켜버린다는 것인데 바꿔말하면 그만큼 현상의 본질도 많이 포함된다. 그런데 잡음이라는 것은 현상의 본질하고 무관하기 때문에 복잡한 이론을 '여러 개' 만들어 놓고 공통점만 찾으면 결과적으로 현상을 가장 잘 예측할 수 있게 된다.

그림으로 보면 좀 더 간단하다. 아래 그림은 사인 함수에다 잡음을 섞은 데이터를 가지고 아주 복잡한 곡선에 맞춘 것인데 곡선 하나 하나를 보면 굉장히 심하게 위아래로 널뛰는 것을 볼 수 있다. 왜냐하면 데이터라는 것은 실제 경향보다 위아래로 조금씩 튀기 마련인데 빨간 곡선은 함수 자체가 워낙 형태가 자유롭다보니까 데이터와 함께 널을 뛰는 것이다.

그런데 가만히 보면 알겠지만 빨간 선 하나 하나는 사인 함수와 동떨어져 있어도 이런 빨간 선 여러 개가 만들어 내는 윤곽은 사인 함수와 거의 똑같다. 실제로 빨간선들을 '평균' 내면 사인 함수와 거의 완벽하게 들어맞는다. 아래 그림에서 초록선이 사인 함수고, 빨간 선은 제각각 널뛰던 빨간 선들을 평균낸 것이다.
이런 접근은 이론적 해석이 중요한 과학에서는 아무 가치도 없지만, 과정이야 어쨌든 예측만 정확하면 그만일 수도 있는 실용적인 분야들에서는 아주 간단하게 정확한 예측을 얻을 수 있는 방법이다. 그냥 여러 셋의 서로 다른 데이터 각각에 단순성에 대한 고려 따위는 안드로메다로 보낸 모형을 끼워맞춰서 여러 개의 예측치를 얻고 그걸 그냥 평균내는 것이다. 데이터가 여러 셋이 없으면 하나의 셋을 무작위로 나누면 된다. 이것이 배깅(bagging: bootstrap aggregating)이라는 기법이다.

흔히들 말하는 집단지성이 작동하는 이유는 여러 가지인데 한 가지 이유는 아주 간단한 통계적 이유 때문에 그렇다. 사람마다 경험이 다르고, 경험을 받아들이는 방식도 단순하지 않다. 그래서 의견도 제각각이기 마련인데 이런 의견들을 단순히 평균 내기만 해도 놀라울 정도로 정확한 예측이 가능해진다. 즉, 집단지성의 한 가지 측면은 "인간을 단위로 구현한 배깅"이라고 할 수 있다.

그런데 배깅이 작동하려면 각각의 모형이 '공통의 본질'과 '서로 다른 잡음'을 포함하고 있어야 한다. 그래야 평균을 내면 잡음들을 서로 상쇄되서 사라지고 '공통의 본질'만 남기 때문이다. 하지만 현실은 시궁창이라 이렇게 매끈하게 잘되지는 않고 평균을 내어봤자 '공통의 본질'과 '공통의 잡음'이 포함되어 있기 십상이다. 운이 나쁘면 부분적으로는 '미미한 본질'과 '거대한 잡음'만 남기도 하고.

다시 집단지성의 문제로 돌아오면 실제로 사람들의 경험이 다르다고 해도 실제로는 비슷한 부분이 많고 게다가 특정한 이슈가 일때는 얼마만큼의 '잡음'을 포함할지도 모르는 단 하나의 데이터를 모두가 경험하게 된다. 게다가 인간은 통계 모형과 달리 서로 영향을 주고 받으므로 잡음은 인간과 인간을 돌아다니면서 점점 증폭되기 마련이다. 결과는 뭐 막장.  그러니까 이렇게 평균적으로 작동하는 형태의 집단지성이란 좀 역설적이지만 그 구성원들이 하나의 '집단'으로 뭉칠 수록 '지성'과는 거리가 멀어지는 것이다.

써놓고 보니 뻔한 이야기네. 이거야 말로 단순한 일을 굳이 복잡하게 설명하는 나쁜 글쓰기의 재귀적 사례다.

공유하기 버튼

 

1 2 3 4 5 6 7 8 9 10 다음



메모장

야후 블로그 벳지