HTMLタグを用いたWebページのクラスタリング手法

書誌事項

タイトル別名
  • HTML タグ オ モチイタ Web ページ ノ クラスタリング シュホウ
  • Web Document Clustering Using HTML Tags
  • 言語メディア処理と情報コンテンツ

この論文をさがす

抄録

本論文は,検索結果を自動分類することで検索支援を行う1つの手法として,Webページのタイプに着目したページのクラスタリング手法を提案する.本論文では,HTMLタグの木構造の情報を用いたクラスタリング手法とHTMLタグのn-gramと出現位置を考慮した頻度情報を用いたクラスタリング手法の2つを提案する.アンケートにより作成した正解データセットを用いた評価実験において,単語の分布(Bag-of-Words BoW)に基づくクラスタリング手法や新聞などのテキストを対象とし文書タイプに分類を行うMulti-way Distributional Clustering(MDC)よりも,2つの提案手法のほうがクラスタリング精度において良い結果となった.また2つの提案手法間では,クラスタリング精度については分類傾向による差はあるものの全体では同等の精度であり,処理時間においてはHTMLタグの頻度情報を用いたクラスタリング手法が良好な結果となった.

In this paper, we propose two clustering methods based on HTML tags. These methods cluster Web pages according to their type or style, rather than classifying them into predefined genres. The one method is based on the tree structure of HTML tags, and the other is based on the frequency of HTML tags considering the n-gram of tags and the location of tags. In evaluation experiment, our methods achieved better performance than the Bag-Of-Words method and the Multi-way Distributional Clustering (MDC) method. The frequency method achieved as a good performance as the tree-structured method. In evaluation experiment of the overall processing time, the frequency method was faster than the tree-structured method.

収録刊行物

被引用文献 (4)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ