GAを用いたWebニュースの時系列情報を考慮したトピック抽出に関する研究

書誌事項

タイトル別名
  • GA オ モチイタ Web ニュース ノ ジケイレツ ジョウホウ オ コウリョ シタ トピック チュウシュツ ニ カンスル ケンキュウ
  • Research for Extracting Topic of Web News with Time Series Information Using GA
  • データマイニング

この論文をさがす

抄録

近年,インターネットを利用した日常的な情報収集活動において,即時性と信頼性に優れたWebニュースは人々の情報源として広く活用されている.しかし,日々時々刻々と増加する膨大な数のWebニュースから特定のトピックだけを抽出することは困難である.そのため,文書間の類似度を利用してトピックを分類する研究や時系列的な特性に基づきトピックを抽出する研究が活発に行われている.しかし,これら既存研究では,文書中に出現する単語群に依存した分類しかできず,また任意の期間に発生するトピックに適切な単語を関連付けできないという課題がある.そこで,本研究では,時系列的な特性に基づいて抽出したバースト語を用いて,バースト語間の関連を考慮した最新のトピックを抽出する手法を提案する.そして,既研究の従来手法と比較実験を行い,本提案手法の有用性を実証する.

A Web News that is very immediate and reliable is used as a news resource at practical activity of collecting information on Internet in recent years. However, it is difficult to extract specific topics from huge Web News that is increasing momentarily. Therefore, there are some researches which extract the topics depend on a feature of time series information or classified topics using the similarities between documents. However, these past researches have some problems. Firstly, Web News is classified by term frequency in the document set. Secondly, topics that occur over any term can not have links with words that are relevant to a unique topic. Thus, in this paper, we propose a method to extract hot topics based on a relation between burst words that are extracted based on a feature of time series information. Then, we evaluate the effectiveness to compare the proposed method with the existing methods of early researches.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ