単語共起頻度を用いた日本語解析

計算機を用いて自然言語を解析した場合、一般に複数の解釈が得られる。従来の多くのシステムでは、まず文法的に正しい解釈をすべて生成し、その中から意味的に妥当なものを選ぶという方法をとっていた。この方法は文の曖昧さが増加するに従って、心要とする計算時間・記憶空問が増大してしまう。しかも、単に文法的に正しいだけの解釈のほとんどは、人間ならば思い付かないような「無意味な」もので占められている。一方、人間が文を読んで理解する場合は、先行する部分の意味的情報・文脈的情報等をもとにして後続する部分を予測し、それによって効率の良い解析を行なっていると考えられる。これと同様のことを計算機で文を解析する際にも行なえば探索空間が小さく抑えられ、また意味的にもっともらしい解釈が優先的に得られるものと思われる。今回作成したシステムは、形態素解析の段階から単語共起頻度を利用している。形態素解析は深さ優先で進み、人力文を単語に切り分ける際に曖昧さが生じた場合は、先行する部分に含まれる単語との共起頻度が高いものが優先的に選ばれる。係り受け解析(構文解析)時にも、共起頻度の高い単語を含む文節の間での係り受けが優先される。共起頻度が高い単語同士は意味的にも深いつながりがあると予想されるので、この方法は意味的に妥当な解釈をそうでない解釈よりも先に与えるであろうことが期待できる。

単語共起頻度を用いた日本語解析

書誌事項

この論文をさがす

説明

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

単語共起頻度を用いた日本語解析

書誌事項

この論文をさがす

説明

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について