GAを用いたWebニュースの時系列情報を考慮したトピック抽出に関する研究

Bibliographic Information

Other Title
  • GA オ モチイタ Web ニュース ノ ジケイレツ ジョウホウ オ コウリョ シタ トピック チュウシュツ ニ カンスル ケンキュウ
  • Research for Extracting Topic of Web News with Time Series Information Using GA
  • データマイニング

Search this article

Abstract

近年,インターネットを利用した日常的な情報収集活動において,即時性と信頼性に優れたWebニュースは人々の情報源として広く活用されている.しかし,日々時々刻々と増加する膨大な数のWebニュースから特定のトピックだけを抽出することは困難である.そのため,文書間の類似度を利用してトピックを分類する研究や時系列的な特性に基づきトピックを抽出する研究が活発に行われている.しかし,これら既存研究では,文書中に出現する単語群に依存した分類しかできず,また任意の期間に発生するトピックに適切な単語を関連付けできないという課題がある.そこで,本研究では,時系列的な特性に基づいて抽出したバースト語を用いて,バースト語間の関連を考慮した最新のトピックを抽出する手法を提案する.そして,既研究の従来手法と比較実験を行い,本提案手法の有用性を実証する.

A Web News that is very immediate and reliable is used as a news resource at practical activity of collecting information on Internet in recent years. However, it is difficult to extract specific topics from huge Web News that is increasing momentarily. Therefore, there are some researches which extract the topics depend on a feature of time series information or classified topics using the similarities between documents. However, these past researches have some problems. Firstly, Web News is classified by term frequency in the document set. Secondly, topics that occur over any term can not have links with words that are relevant to a unique topic. Thus, in this paper, we propose a method to extract hot topics based on a relation between burst words that are extracted based on a feature of time series information. Then, we evaluate the effectiveness to compare the proposed method with the existing methods of early researches.

Journal

Details 詳細情報について

Report a problem

Back to top