태그 : 자연어처리 요약보기전체보기목록닫기

1

텍스트의 통계학: (3) 네 주제를 알라

텍스트의 통계학: (1) 구글신의 새 마음텍스트의 통계학: (2) 셰익스피어의 영혼은 몇 그램?지난 번에는 간단하게 단어의 순서, 즉 문법을 통계적으로 분석하는 방법을 알아보았다. 제대로 문법을 분석하려면 일단 문법 이론부터 설명해야하니까 그건 과감하게 넘어가겠다. 원래 이 연재가 좀 수박 겉핥기다.이번에는 텍스트의 '주제'를 통계적으로 파악하는 방...

텍스트의 통계학: (2) 셰익스피어의 영혼은 몇 그램?

텍스트의 통계학: (1) 구글신의 새 마음텍스트는 문장으로, 문장은 단어로 이뤄져있다. 누군가 "철수는 영희를.."이라고 말하면 우리는 그 다음에 어떤 단어가 나올지 귀를 쫑긋 세우고 기다릴 것이다. 그 다음 자리에는 "사랑한다"가 나올 수도 있고 "미워한다"가 나올 수도 있다. 다시 말해 한 문장에서 어떤 단어가 나올지는 모두 확률적이다. 유니그램(u...

텍스트의 통계학: (1) 구글신의 새 마음

우리는 역사상 어느 때보다도 많은 텍스트를 가진 시대를 살고 있다. 이 글을 포함해 인터넷에는 오늘도 수많은 글들이 올라오고 있다. 인터넷 초창기에는 웹사이트가 몇 개 없어서 사람이 하나씩 읽어보고 웹사이트들을 분류했다. 야후가 이렇게 시작한 회사다. 하지만 현재는 이런 식으로 사람이 읽고 웹사이트를 읽고 분류하는 것은 불가능하다. 따라서 컴퓨터를 이용...
1



검색

맞춤검색

메모장

야후 블로그 벳지