2012/04/04 19:55

결론에 증거를 맞추기 수학/통계학

문대성이 발로 차버린 기회들: 문대성의 논문 표절에 대한 언론 보도는 정당한가? (슬로우뉴스)
문대성 표절을 비판하는 근거는 여전히 정당하다 (deulpul님)

슬로우뉴스 기사는 내가 기고한 것이다. 나는 deulpul님의 말처럼 "지금처럼 복붙의 가시적이고도 충격적인 더 큰 증거들이 널려있는 상황"에서 표절 여부를 검토할 때 별로 비교할 필요도 없는 부분들을 왜 비교해야 하는지 의문이다.

#1.

문대성 표절을 두고 트위터에서 "6단어만 겹치면 표절"이라는 이야기가 나왔다. 그런데 그게 어떤 6단어냐에 따라 이야기가 전혀 달라질 수 있다.

통계분석보다도 표현이 많이 겹치는 부분이 실험 참여자를 보고하는 대목이다. 예를 들어 많은 심리학 실험은 심리학 수업을 듣는 학생들을 대상으로 한다. 이걸 논문에 쓴다면 대충 "140 ( 90 women, 50 men; Mage = 21.2 years, SD = 1.4) undergraduate students who participated for course credit" 뭐 이런 식으로 쓰게 된다. 이게 몇 단어냐 하면 벌써 18단어다. 여기에 앞뒤로 이말 저말 붙이다보면 수 십 단어에 해당하는 문장이라도 얼마든지 완전히 똑같을 수 있다. 이걸 표절이라고 한다면 그런 표절 논문은 수 천 편도 더 찾을 수 있다. 실제로 아무 저널이나 최신호를 열어서 논문을 한 편 씩 열어봤는데 단 세 편만에 거의 똑같은 표현을 찾아냈다.

Sixty-four (30 women, 34 men; Mage = 18.78 years, SD = 0.85) European American students from the University of Michigan and 69 (48 women, 21 men;Mage = 19.06 years, SD = 1.49) Russian students from the Moscow State Regional University participated for course credit.

Grossmann, I. et al. (2012). Culture, attention, and emotion. Journal of Experimental Psychology: General, 141(1), 31-36.


이 논문하고 표현이 10단어 20단어 겹치는 논문도 시간만 있으면 얼마든지 찾을 수 있을 것이다. 문대성 논문의 경우에는 서론에서 통으로 베낀 부분 하나면 표절 논란은 거기서 끝난 것이지 표절하지 않아도 원래 비슷한 부분까지 일일이 비교할 필요는 없다.

#2

deulpul님의 글에서 이 대목은 아주 심각한 문제가 있다.

이 문제를 연구가설로 만드는 방법은 두 가지다. 하나는 '오덕 회원들의 키는 평균보다 작다'라는 것이고, 이것은 문대성의 방법이다. 다른 하나는 '오덕 회원들의 키는 전체 평균(175cm)과 차이가 있다'라는 것이고, 이것은 김백수의 방법이다. 전자는 그 자체로 차이가 의미가 있는지를 밝혀내는 구조로 되어 있으니 넘어가고, 후자를 보자.

이 경우 영가설(귀무가설)은 '오덕 회원들의 키는 전체 평균과 차이가 없다(오덕 평균 = 175)이다'이고, 연구가설은 '그렇지 않다'이다. 검증을 하면 그 결과를 알 수 있는데, 차이가 있는 것으로 나왔다고 치자. 이게 무슨 말인가? 오덕들은 평균보다 키가 크다는 결론인가? 당연히 오덕 회원들 키는 평균보다 작다는 결론으로 해석하게 된다. 원래의 데이터의 성격이 그렇게 되어 있기 때문이다.

김백수의 논문도 가설은 '차이가 있나 없나?'라는 모양을 취하고 있지만 그 결과를 해석하는 데 있어 기술 통계량(descriptive statistics)의 경향성에 근거하여 '증가하였다' '향상되었다' '높은 것으로 나타났다'라는 표현을 쓰고 있다(아래 그림). 이 점을 밝혀내는 것이 자기 논문의 원래 목표인 것이므로 당연한 일이다. 연구 논문에서 분석 결과 차이가 있다고만 보고하고 그 내용을 해석하지 않는 것은, 똥 누러 가서 오줌만 싸고 있는 형국인 셈이다.


이렇게 하면 표절이 문제가 아니라 연구 조작이다. 연구 조작까지는 아니라도 부정직한 짓이다. 아니 결국 연구 조작이군. 많은 연구자들이 간과하는 부분인데 이렇게 하면 절대로 안된다.

"차이가 없다"는 양방검정(two-tailed test)의 귀무가설이다. 이것을 기각했을 때 우리가 얻을 수 있는 결론은 "차이가 있다"라는 것 뿐이고 그 이상으로 해석해서는 안된다. 만약 "더 크다"라는 결론을 원했다면 처음부터 단방검정(one-tailed test)을 해야 한다. 분석은 양방검정으로 하고, 해석은 단방검정으로 한다면 연구자는 가설을 데이터로 검정하는 것이 아니라, 데이터에 가설을 맞추는 것이다. 양방검정과 단방검정을 괜히 나눠놓은 것이 아니다.

물론 문대성이 이걸 알고 "향상될 것이다"라고 썼을 거라고는 나도 믿지 않는다.

#3

진중권이 비교해놓은 많은 부분은 deulpul님의 말씀대로 "다른 명백한 표절 혐의를 놓고 따지다 보니 제목 부분에서조차 유사한 점이 발견된다는 결과적인 발견과 문제제기"이다. 이것은 #2와 비슷하다. 증거로부터 표절 여부를 결론짓는 것이 아니라, 표절 여부를 이미 결론내린 상태에서 증거를 찾아서 끼워맞춘 것이다. 이것이 정당한가? 나는 그렇게 생각하지 않는다.

핑백

  • Null Model : 통계학적 밑장빼기 2012-04-05 19:47:31 #

    ... 결론을 증거에 맞추기에서 나는 다음과 같이 설명했다. "차이가 없다"는 양방검정(two-tailed test)의 귀무가설이다. 이것을 기각했을 때 우리가 얻을 수 ... more

덧글

  • 라마르틴 2012/04/05 07:47 # 삭제

    조까네. 무슨 여섯 단어만 같으면 표절? 그럼 남이 한 연구 단어하고 조사만 바꿔가지고 자기가 한 것처럼 문장 다시 써가지고 올리면 표절이 아닌가.
  • 2012/04/05 08:43 # 삭제 비공개

    비공개 덧글입니다.
  • 아이추판다 2012/04/05 19:48 #

    새로 글을 썼는데 한 번 읽어보세요 ^^
※ 이 포스트는 더 이상 덧글을 남길 수 없습니다.



검색

맞춤검색

메모장

야후 블로그 벳지