性質継承と概念の再帰的適用に基づくWebからの概念階層抽出

書誌事項

タイトル別名
  • セイシツ ケイショウ ト ガイネン ノ サイキテキ テキヨウ ニ モトズク Web カラ ノ ガイネン カイソウ チュウシュツ
  • Extracting Concept Hierarchy Knowledge from the Web by Property Inheritance and Recursive Use of Term Relationships

この論文をさがす

抄録

上位下位関係や部分全体関係といった概念階層は,様々な自然言語処理システムにとって非常に重要な基本的知識である.概念階層の構築が人海戦術的に進められている一方で,Webなどの大規模な文書データベースから自動的に知識抽出する研究も数多く行われている.しかしながら,従来の抽出手法の多くは構文パターンに基づいているため,上位下位関係の厳密な構文パターンを用いると適合率は高いが再現率が非常に低くなり,逆に,曖昧な構文パターンを用いると再現率は高くなるが適合率が非常に低くなってしまうという問題があった.これに対して我々は,上位下位関係の構文パターンに合致する文書頻度とは異なる評価軸として,対象概念から下位概念候補への性質継承の度合いに基づく抽出手法を提案する.さらに,注目している2つの概念間の直接的な関係を評価するだけでなく,これらの周辺にある概念との関係も考慮することによって,提案手法のロバスト性の向上を図る.具体的には,対象概念の上位概念や下位概念候補の同位概念を厳密な構文パターンを用いて高い適合率で抽出したうえで,対象概念の上位概念から下位概念候補への性質継承の度合い,対象概念から下位概念候補の同位概念への性質継承の度合いなども加味する.また,各概念の典型的な性質を抽出する手法においても,各概念と各性質との間の直接的な関係を評価するだけでなく,対象概念の上位概念からの性質継承や対象概念の下位概念集合からの性質集約も考慮することによって改善を図る.

Concept hierarchies, such as hyponymy and meronymy, are very fundamental for various natural language processing systems. Many researchers have tackled how to mine very large corpora of documents such as the Web for concept hierarchy knowledge. However, their methods are mostly based on lexico-syntactic patterns as not necessary but sufficient conditions of concept hierarchies, so they can achieve high precision but low recall when using stricter patterns or they can achieve high recall but low precision when using looser patterns. In this paper, we propose a method to extract concept hierarchies from the Web based on “Property Inheritance” from a target concept to its subordinate candidate, as a different measure from the document frequency of lexico-syntactic patterns for concept hierarchies. To make our method more robust, we also utilize the other concepts surrounding them, e.g., not only property inheritance from a target concept to its subordinate candidate, but also property inheritance from its superordinate concept to its subordinate candidate and/or from the target concept to a coordinate concept of its subordinate candidate. In addition, we refine a method to extract typical properties for each concept from the Web by utilizing property inheritance from its superordinate concept to the target concept and/or “Property Aggregation” from a set of its subordinate concepts to the target concept.

収録刊行物

被引用文献 (3)*注記

もっと見る

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ