2011.06.20 15:02
조요한, 김동우, 문일철, 오혜연, LDA를 이용한 대용량 블로그 문서 처리, 2009 인공지능 연구회 추계 워크샵, 한국정보과학회, 2009년 10월 23일
초록 :
본 논문은 기계학습 분야에서 주제 분석을 위해 사용되는 문서 모델인 LDA를 수만 개의 블로그 문서에 적용해보고 나타나는 다양한 현상들에 대해 분석을 시도하였다. 우선 인터넷 상의 블로그 데이터를 네 가지 유형으로 분류하여 주제를 분석 하였다. 각 유형의 데이터가 가지는 특징과 그로 인해 나타나는 현상들을 살펴본 뒤에 혼잡도의 개념을 도입하여 학습된 모델들의 성능을 비교하였다. 주제 분석을 통해 블로그 데이터에서 은행, 문학, 인종 등의 주요 주제들이 추출되는 결과를 확인할 수 있었으며, 데이터 유형별혼잡도 분석을 통해 블로그 데이터를 주제 분류에 적용할 때 고려할 만한 사항들을 논의하였다.