ラベルなしデータを用いた素性増強による日本語固有表現抽出方法

書誌事項

タイトル別名
  • ラベル ナシ データ オ モチイタ スジョウ ゾウキョウ ニ ヨル ニホンゴ コユウ ヒョウゲン チュウシュツ ホウホウ
  • Japanese Named Entity Extraction by Augmenting Features with Unlabeled Data
  • 自然言語

この論文をさがす

抄録

本論文では,日本語固有表現抽出における精度改善のための手法を提案する.日本語の固有表現抽出においては,単語の明確な境界がないために,単語認識を行った後に抽出を行う方法が幅広く用いられている.しかし,この方法では,単語の一部だけが固有表現を構成しうるという問題が生じる.この問題に対し,本論文では,単語単位の固有表現抽出の後に,文字単位の固有表現抽出を行う2段階の抽出手法を提案する.続いて,従来の固有表現抽出で幅広く利用されてきた,人手で作成された固有名詞辞書やシソーラスの代わりに,複数の固有表現抽出器でラベルなしデータを解析した結果から各単語がなりうる固有表現クラスや各単語と共起する固有表現クラスなどを獲得し,固有表現抽出の手がかりとして利用する方法を提案する.本手法を,IREXの固有表現抽出タスクにおいて評価を行った.その結果,単語単位と文字単位の抽出の組合せおよび,ラベルなしデータの利用が,日本語固有表現抽出の精度改善につながることが示せた.

This paper proposes two methods for improving the performance of Japanese Named Entity (NE) extraction. The first one is the combination of wordunit and character-unit extraction. Most Japanese NE extractors use words segmented by a Japanese morphological analyzer because Japanese language has no word boundary marker. However, word unit is not always consistent with NE unit. To solve this problem, we propose to combine word-unit and character-unit extraction. The other is feature argumentation techniques by using extraction results of NE from unlabeled data with NE extractors. Our method collects the candidate NE classes of each word and the NE classes of its surrounding words from unlabeled data. We use these collected information of each word as features. We apply our NE extraction methods to IREX Japanese NE extraction task. The results show that our methods contribute improved accuracy.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ