単語の意味の類似性判別のための大規模概念ベース

書誌事項

タイトル別名
  • A Large-scale Knowledge Base for Measuring Semantic Similarity between Words
  • タンゴ ノ イミ ノ ルイジセイ ハンベツ ノ タメ ノ ダイキボ ガイネン ベース
  • 知識処理

この論文をさがす

説明

概念を表す基本単位である単語間の意味的な類似性を判別するため,単語(以下,概念と呼ぶ)に関する知識ベース(概念ベースと呼ぶ)の構築を進めてきた.この概念ベースでは,各概念は,国語辞書の語義文から獲得される自立語を属性,その出現頻度を属性値として表現され,概念間の類似度は共通属性の比較により算出される.これまで,約4万の日常語からなる概念ベースを構築してきたが,具体的な応用においては概念数の不足や性能的な不十分さが問題となった.本論文では,語義文における属性の重要性およびシソーラス上の属性間の関係を考慮した属性値算出手法を提案し類似性判別能力の向上を図る.また,新語や造語を含めたあらゆる概念に対し類似性判別を可能にするため,一般的な単語に関する概念ベースのほか,同義語および漢字概念ベースからなる大規模概念ベースの構築を行った.また,これに対し,類似性判別能力等を評価した結果,従来の概念ベースに比べ大幅な性能向上が確認された.

A method for measuring the semantic similarity between words using a type of knowledge bases was proposed. Each word in this knowledge base is represented by a list of weighted keywords that automatically acquired from machine-readable dictionaries. A prototype knowledge base of about 40,000 Japanese words was constructed. However, experiments showed that the number of words and the ability of similarity judgment are not enough for practical applications. This paper describes a large-scale knowledge base, which contains a large number of common words, Chinese characters and synonyms in order to deal with every word including both new words and coined words. Moreover, new methods to acquire and modify the weights of keywords are proposed in order to improve the judgment-ability. In these methods, weights of keywords are calculated considering the relationship between keywords on thesaurus and the importance of keywords. Experimental results showed that the ability of similarity judgment of the proposed knowledge base is superior to the prototype.

収録刊行物

被引用文献 (5)*注記

もっと見る

参考文献 (23)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ