2009/06/01 13:16

이글루스 5월의 떡밥들 수학/통계학

텍스트 처리에 사용하는 인공지능 알고리듬을 이용해 지난 5월 한 달동안 이글루스에서 어떤 이야기가 오고갔는지 정리해보았다. 우선 간단한 로봇을 만들어 이글루스 뉴스밸리에 5월 한 달동안 올라온 포스트들을 수집했다. 삭제된 포스트, 폐쇄되거나 주소가 변경된 블로그, 외부 블로그는 제외했다.

먼저 전체적인 통계를 보자. 수집된 포스트는 모두 5,731개일평균 약 185개의 글이 뉴스밸리에 올라왔다. 일별로 포스팅 수를 보면 5월 중순까지 하루 100여개 정도의 포스트가 올라오다가 노무현 전 대통령이 서거한 23일에는 860건의 포스트가 올라왔고 그후로 다시 포스트가 차츰 줄어들고 있다.

아래 그래프에서 빨간 선은 수집된 전체 포스트의 수를 나타낸다. 이 중 길이가 너무 짧은 글들은 분석에서 제외했다. 파란 선은 주제 분석에 사용한 포스트의 수를 나타낸다.


뉴스밸리에 글을 보낸 사람은 1,824명으로 1인당 평균 약 3개의 포스트를 보냈다. 이중 910명은 1개의 포스팅만 했다. 가장 많이 포스팅한 사람은 한 달동안 110개의 포스트를 뉴스밸리에 올렸다. 아래 그래프는 포스팅 수별로 블로거의 수를 나타낸 것이다.



이제 5월 한 달동안 이글루스 뉴스밸리에서 오갔던 이야기들을 본격적으로 분석해보도록 하자. 단어는 맥락에 따라 의미가 조금씩 달라지기 때문에 보통 하듯이 단어 빈도만을 가지고 분석하는데는 한계가 있다. 그래서 최근에는 글의 맥락이나 주제를 추출해내는 방법들이 여럿 개발되고 있다. 그중에서 이번에 사용할 방법은 LDA(Latent Dirichlet Allocation)이다. LDA는 하나의 글이 여러 개의 주제(topic)를 가지고 있다고 가정한 다음, 이런 주제들과 각 글에서 주제의 비율을 찾아내는 방법이다.

LDA로 분석하기 전에 문장에서 단어를 먼저 추출해줘야하는데 한국어는 이게 매우 까다로워서 대충 처리했다. 예를 들면 명사 '대한(大韓)'과 동사 '대하다'의 변형인 '대한'을 구별하지 않았다. 이런 한계가 있는 분석이라는 걸 염두에 두고 결과를 보면 되겠다.



사전분석을 거쳐 52개의 주제가 있다고 가정하고 분석을 실시했다. 다음은 비교적 많이 나타난 23개의 주제들과 각 주제에서 자주 쓰인 단어들이다. 괄호 안의 숫자는 전체 5,700여개의 포스트에서 주제가 나타난 비율을 뜻한다. 주제의 번호는 임의로 붙인 것으로 특별한 의미는 없다.

주제01 (2.26%) 세상, 역사, 시대, 살아, 정의, 인간, 세대, 행복, 현실, 희망
주제04 (2.82%) 대통령, 노무현, 정치, 국민, 정치인, 대한민국, 권력, 퇴임, 지지자, 지지
주제07 (2.55%) 대통령, 자살, 노무현, 검찰, 서거, 수사, 전직, 애도, 대한, 뇌물
주제08 (1.85%) 교육, 감사, 대한, 총장, 한국, 학교, 학생, 지원, 제도, 폐지
주제09 (1.49%) 문화, 교수, 한예종, 예술, 이론, 좌파, 전문, 과정, 사태, 영상
주제11 (2.47%) 대한, 주장, 자유, 표현, 비판, 부분, 논리, 입장, 판단, 일반
주제14 (2.51%) 국가, 사회, 경제, 민주주의, 국민, 한국, 대한민국, 나라, 자유, 정책
주제17 (1.29%) 서울, 한국, 전교조, 지역, 전국, 부산, 주민, 인천, 경기, 마을
주제19 (2.08%) 눈물, 사람, 사진, 마음, 모습, 앞에, 하늘, 권력, 가슴, 영결식
주제20 (1.91%) 분향소, 조문, 시간, 지나, 돌아, 버스, 기다, 전경, 설치, 봉하
주제21 (2.65%) 보수, 진보, 가치, 현재, 중요, 집단, 가능, 상황, 대한, 필요
주제24 (2.10%) 선택, 잘못, 돈을, 책임, 결과, 사실, 가족, 사람, 인정, 받았
주제26 (2.26%) 북한, 미국, 핵실험, 전쟁, 한국, 중국, 남한, 실험, 미사일, 한반도
주제28 (2.04%) 한나라당, 민주당, 지지, 진보, 박근혜, 의원, 대선, 정치, 지역, 대표
주제29 (2.12%) 생각, 얘기, 정도, 이상, 사실, 노력, 이야기, 성공, 방법, 느끼
주제32 (2.11%) 세상, 마음, 부끄, 그분, 바보, 사람, 살아, 미안, 돌아, 고통
주제34 (2.01%) 집회, 노동, 기업, 노동자, 노조, 금융, 조합, 비정규직, 경영, 요구
주제38 (2.25%) 시장, 대우, 생산, 회사, 수준, 소비, 대한, 전체, 정도, 필요
주제40 (2.15%) 정치, 대한, 생각, 존재, 자체, 관심, 덕후, 덕후위원회, 사회당, 만들
주제41 (2.22%) 대통령, 유서, 경호원, 사람, 경호, 자살, 부엉이, 바위, 노무현, 투신
주제44 (1.96%) 연구, 미국, 박사, 외국, 황우석, 돼지, 국내, 수입, 세계, 감염
주제48 (1.81%) 사망, 노통, 상태, 병원, 환자, 의료, 인천, 녹색, 의사, 당시
주제49 (2.11%) 경찰, 시위, 폭력, 시민, 불법, 용산, 연행, 참가, 시위대, 진압
주제50 (1.91%) 사건, 헌법, 행위, 재판, 원칙, 대법관, 위반, 독립, 사법, 대한

주로 노무현 전 대통령 서거에 관련된 주제들(4,7,19, 20, 32,41,48)이 많이 눈에 띈다. 그 외에 한예종 사태(8,9), 노동 문제(34), 한반도 정세(26), 사회당 덕후위원회(40), 시위(49), 사법부(50)와 관련된 주제들이 있고, 특별한 사건과 관련없이 어느 글에나 있기 마련인 주제들(1,11,14,21,29 등)도 있다.

아래 그래프는 날짜별로 주제들이 차지하는 비율을 나타낸 것이다.


5월동안 이글루스 뉴스밸리에서 논의의 흐름을 위의 그래프만으로 정리해보자. 뉴스밸리는 5월초 주제49(경찰, 시위..)에 대한 이야기로 뜨거웠고 5월 중순에 들어서면서 주제26(북한, 미국..), 주제38(시장, 대우..), 주제44(황우석, 돼지..), 주제40(덕후위원회..), 주제17(서울, 한국, 전교조..) 등이 수면 위로 떠올랐다. 그리고 하순에는 주제8,9(교육, 감사, 한예종..), 주제34(집회, 노동..), 주제50(사건, 헌법..)에 대해 이야기가 쏟아져 나왔다. 그리고 23일. 노무현 전 대통령 서거로 애도의 글들이 쏟아져 나왔고(주제 4, 7, 19, 20, 32) 며칠 지나자 서거 당시 상황에 대한 의혹을 두고 여러 가지 글들이 올라왔다(주제 41, 48). 내가 뉴스밸리 글들을 꾸준히 읽은 게 아니라서 이게 실제 논의의 흐름과 얼마나 일치하는지는 잘 모르겠다.

분석 결과에 대한 개인적인 의견은 별도의 포스팅에서 밝히도록 하고 이 글은 여기서 마치겠다. 로봇 제작은 Python, 데이터 분석은 Matlab, 그래프는 엑셀2007을 사용했다. 참고문헌은 아래와 같다.

  • Griffiths, T.L., Steyvers, M., & Tenenbaum, J.B.T. (2007).  Topics in Semantic Representation. Psychological Review, 114(2), 211-244.
  • Griffiths, T., & Steyvers, M. (2004). Finding Scientific Topics. Proceedings of the National Academy of Sciences, 101 (suppl. 1), 5228-5235.
  • D. Blei, A. Ng, and M. Jordan (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993-1022

덧. 분석 결과에서 실제와 맞지 않는 부분에 대한 지적, 추가적인 분석에 대한 제안, 기타 의견 등을 댓글로 남겨주시면 고맙겠습니다.

핑백

  • Null Model : 텍스트의 통계학: (3) 네 주제를 알라 2009-10-14 12:05:24 #

    ... 화, 134번은 유전자 녹아웃, 179번은 세포 사멸에 관한 것 같다. 나도 똑같은 기법을 이용해 이글루스 뉴스밸리의 글들을 LDA 모형으로 분석한 적이 있는데 그 결과는 이글루스 5월의 떡밥들에 정리되어 있다. 관련 대목만 다시 가져와보면 아래와 같다. 5월동안 이글루스 뉴스밸리에서 논의의 흐름을 위의 그래프만으로 정리해보자. 뉴스밸리는 5월초 주제49( ... more

  • Null Model : 이글루스 TOP100 2009-12-18 20:36:11 #

    ... 2009년 이글루스 TOP100이 발표되었다. 예전에 이글루스 5월의 떡밥들 쓸 때 만들어뒀던 스크립트로 TOP100 추천글들을 주욱 긁어 모아 누가 얼마나 추천을 받아보았는지 알아봤다. 수집된 포스트 수는 324개. 일단 아래는 TOP10 ... more

  • LDA 실습: 내 블로그의 주제는? | 4four.us 2010-11-14 21:42:38 #

    ... brary Search LDA 실습: 내 블로그의 주제는? LDA(Latent Dirichlet Allocation)로 검색하다가 아이추판다님 블로그에서 재미난 글을 발견하고 나도 따라 해봤다. 블로그를 시작한 2007년 8월 27일부터 지금까지 작성한 총 136개 포스트를 대상으로 LDA를 돌렸다. 더 이상 직접 구현해 ... more

덧글

  • 2009/06/01 14:10 # 비공개

    비공개 덧글입니다.
  • 아이추판다 2009/06/02 20:29 #

    이만하면 제법 괜찮은 것 같죠? ^^
  • kkkclan 2009/06/01 16:11 #

    오 신세계... 인터넷 이렇게 분석할 수도 있군요.
  • 아이추판다 2009/06/02 20:31 #

    재미있으셨나요?
  • joowon 2009/06/01 22:01 #

    관심있게 읽었습니다. 감사합니다.
  • 아이추판다 2009/06/02 20:33 #

    ^^
  • 개미지옥 2009/06/03 08:00 # 삭제

    Wow!!
  • 아이추판다 2009/06/03 15:56 #

    월드 오브 워크래프트?
  • 漁夫 2009/06/06 09:16 #

    으악, 진짜 대단하십니다!
※ 이 포스트는 더 이상 덧글을 남길 수 없습니다.



검색

맞춤검색

메모장

야후 블로그 벳지