リンク構造に基づいたWWW からのトピック抽出

書誌事項

タイトル別名
  • リンク コウゾウ ニ モトズイタ WWW カラ ノ トピック チュウシュツ
  • Topic Detection from WWW Based on Link Structure

この論文をさがす

抄録

本論文では,Web ページを分類するために,Web のリンク構造の類似性に着目する.たとえば,ある Web ページと強い関連がある Web ページが存在する場合には,それらを参照するページ群や,それらから参照されるページ群が似ていると考えられる.そこで,このようなことを判定するためにネットワーク分析の分野で使われている構造同値の概念を用いる.そして,クラスタ外のページとクラスタ内のページとの参照パターンを分析することで,構造同値に基づいて作成したデンドログラムにおけるクラスタの境界を個別に判定し,Web ページを分類する手法を提案する.実験を行った結果,このような関係にあるクラスタを抽出することが有効であることが分かった.

In this paper, we focused on the similarity of link structure to classify Web pages. For example, pages with strong relation in content are often pointed from, and pointing to, the same pages. A concept of structural equivalence in network analysis is used to evaluate these structures. We propose a methodology to determine the boundary of each cluster in the dendrogram based on structural equivalence by analyzing the reference patterns on pages outside of the cluster. A preliminary experiment shows that extracting sets of clusters in this relationship is effective.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ