ブログの相互関係性を考慮したブログ記事分類手法の検討

書誌事項

タイトル別名
  • ブログ ノ ソウゴ カンケイセイ オ コウリョ シタ ブログ キジ ブンルイ シュホウ ノ ケントウ
  • A Classification Method for Strongly Connected Blog Entries

この論文をさがす

抄録

ブログの増加にともない,ブログからの効果的な情報の収集は重要な課題となっている.ブログ記事の利用目的は,より詳しい情報源を得たい,著者の感想を得たいなど多様であることが予想される.ブログ記事は,それ自体を単体の独立したウェブページとしてとらえるのではなく,トラックバックなどによる相互関係性を持った集合としてとらえた場合に,ある話題に対する見解の相違の様子などのような,単体のブログ記事からは得にくい有益な情報が得られる場合が考えられる.本論文では,ブログ特有のトラックバックなどによるブログ記事相互の関係性を考慮して収集したブログ記事集合に対し,そこで形成されたコミュニティの特性および品詞やリンクなどの記事内の話題に影響されにくい統計情報を分類学習時の属性として用いる手法を提案する.本手法によって得られた分類器を,学習データとは異なる話題に対する分類問題に適用したときの性能を評価し,学習アルゴリズムや分類目的によって多少異なるものの,ブログの持つコミュニティとしての性質を保って収集されたブログ記事集合に対する分類精度が高く,学習に用いた話題に依存しにくいという特性を持つことを示す.

Blogosphere is evolving as an important information resource and therefore there is a certain need to realize blog-specific effective search engines, crawlers, and article classifiers. We can find blog entries for a certain event by using blog search engines with ordinary ranking algorithms. It is difficult to find out a set of blog entries that have meaningful relations among them. The actual motivations for looking blogs are varied. One would do for locating rich information resources, and another one could do for investigating people's reactions for a specific event. In our approach, we use topic independent features of blog articles that can be statically gained from the number of anchor links or part of speeches to realize a classification using various machine learning algorithms that can cover and adopt various needs of the readers. We show that the performance of classification does not deeply depend on the topic of articles in the learning set.

収録刊行物

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ