新漢字と旧漢字が混在したテキストからの短単位形態素の抽出について

DOI NINJAL オープンアクセス

書誌事項

タイトル別名
  • How to Correctly Morphologically Analyze Text Containing a Mixture of Old- and New-Style Kanji Scripts

抄録

旧字体と新字体の混在するテキストは,形態素解析において誤解析の原因となることが多く,その対策としては形態素解析辞書の記載に異体字を加える方法,そして予め漢字を新字体に置換しておく方法,また複数の辞書を使い分けるといった方法が考えられる。本稿では字体置換6通りと,辞書の使い分け3通りを掛け合わせた18組の組み合わせで國/国,會/会,關/関3対の旧/新字体の対を含んだテキストの形態素解析を行うことで,目的とする漢字を含む形態素がどれほど正確に切り出せるのかを検討した。データとして第1~10回までの国会会議録を用いた。結果は,漢字置換で隣接する漢字が旧字体の場合に旧字体に置換し,隣接しない場合は新字体とするという置換法(デフォルトを新字体とする日和見置換)と,すべてについて近代文語UniDicを用いるか,1949年の当用漢字字体表告示を境として,それ以前では近代文語UniDicを用い,それ以後では現代語書き言葉UniDicを用いる方法が,もっとも正確に当該漢字を含む短単位形態素を切り出せるというものであった。形態素解析辞書の記載に異体字を加える方法には,異体字が記載されていない形態素が出現した場合に対応ができないという欠点があるのに対して,漢字置換と辞書の使い分けを活用する方法は,そうした場合にも柔軟に対応が可能であるという利点があることを主張した。

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ