Webディレクトリ拡張の自動化手法
Bibliographic Information
- Other Title
-
- Web ディレクトリ カクチョウ ノ ジドウカ シュホウ
- Automated Method for Web Directory Expansion
Search this article
Abstract
Webの急速な成長にともない,Webディレクトリをつねに最新の状態に保つことは困難になりつつある.本論文では,Webロボットで収集した大量のWebページ集合を使用して,Webディレクトリを自動的に拡張する手法を提案する.本手法は,テキストの類似性ではなく,ハイパーリンク構造を基にする.まず最初に,共参照解析によって,各カテゴリに関連した権威あるWebサイトを発見する.次に,発見したWebサイトに対する説明文を,それにリンクしているWebページから抽出する.検証用システムとして開発したODINディレクトリでは,Open Directoryが提供しているJapaneseカテゴリの下のすべてのカテゴリに対して拡張手法を適用し,本手法が700以上の詳細なカテゴリに対して正確に妥当かつ権威あるWebサイトを検出できることを示す.さらに,ODINディレクトリを一般公開し,不特定多数の利用者の行動を解析することで,拡張したデータが元データと同等にアクセスされていることを示す.
With the rapid growth of the Web, it is a challenging issue to maintain web directories up-to-date. In this paper, we propose a method to expand a web directory automatically by using huge amount of web pages collected by a web robot. It is not a content-based approach, but is a hyperlink-based approach. It consists of two steps. First, we find authoritative web sites relevant to each category by co-citation analysis. Second, we extract descriptions of found web sites from web pages linking to them. We developed a testbed system named “the ODIN Directory” and expanded all of the categories under the Japanese category of the Open Directory automatically. Our experiments showed that our method could find accurately relevant and authoritative web sites for each category while the Japanese category consists of more than 700 detailed categories. We also put the ODIN Directory on the public web site and confirmed that anonymous users accessed the expanded part of the web directory equally to the original part by user behavior analysis.
Journal
-
- 情報処理学会論文誌データベース(TOD)
-
情報処理学会論文誌データベース(TOD) 45 (SIG07(TOD22)), 218-229, 2004-06-15
東京 : 情報処理学会
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1050282812868617728
-
- NII Article ID
- 110002712407
-
- NII Book ID
- AA11464847
-
- ISSN
- 18827799
- 03875806
-
- NDL BIB ID
- 6991338
-
- Text Lang
- ja
-
- Article Type
- article
-
- Data Source
-
- IRDB
- NDL
- CiNii Articles