Wikipediaの記事構造からの上位下位関係抽出

  • 隅田 飛鳥
    北陸先端科学技術大学院大学情報科学研究科 奈良先端科学技術大学院大学情報科学研究科
  • 吉永 直樹
    東京大学生産技術研究所
  • 鳥澤 健太郎
    独立行政法人情報通信研究機構

書誌事項

タイトル別名
  • Hyponymy Relation Acquisition from Hierarchical Layouts in Wikipedia
  • Wikipedia ノ キジ コウゾウ カラ ノ ジョウイ カイ カンケイ チュウシュツ

この論文をさがす

抄録

本稿では,Wikipedia の記事構造を知識源として,高精度で大量の上位下位関係を自動獲得する手法について述べる.上位下位関係は情報検索や Web ディレクトリなど,膨大な Web 文書へのアクセスを容易にする様々な技術への応用が期待されており,これまでにも様々な上位下位関係の抽出手法が開発されてきた.本稿では,Wikipedia の記事構造に含まれる節や箇条書きの見出しから,大量の上位下位関係候補を抽出し,機械学習を用いてフィルタリングすることで高精度の上位下位関係を獲得する手法を開発した.実験では,2007 年 3 月の日本語版 Wikipedia 2.2 GB から,約 77 万語を含む約 135 万対の上位下位関係を精度 90% で獲得することができた.

収録刊行物

  • 自然言語処理

    自然言語処理 16 (3), 3-24, 2009

    一般社団法人 言語処理学会

被引用文献 (10)*注記

もっと見る

参考文献 (22)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ