隠れマルコフモデルによる言語モデル自動獲得の検討

書誌事項

タイトル別名
  • A Preliminary Study on Language Acquuistion Using Hidden Markov

この論文をさがす

説明

本稿では、全状態間の遷移が許された隠れマルコフモデル(ergodic HMM、以後、HMMと略記する)を用いて確率つきネットワーク文法を自動的に獲得することを試みた。言語モデルには、構文情報を記述したモデルとしてネットワーク文法(有限状態オートマトン)、自由文脈文法などがあり、統計情報を記述したモデルとしてbigramやtrigram、さらにネットワーク文法に統計的な情報を加えた確率つきネットワーク文法などがある。しかし、構文情報を記述したモデルは、人間が言語知識に基づいて構文規則を作成しているため、大規模な言語現象のモデル化に労力がかかる。またbigramやtrigramなどの統計的モデルは、構文規則が表現されない。ところで、HMMは確率正規文法(確率つきネットワーク文法)と等価であり、単語を出力シンボルとする離散型ergodic HMMを考えると、その構造はネットワーク文法記述と形式的に類似している。またHMMはデータを与えると、そのデータの生成尤度が高くなるように状態遷移確率やシンボル出力確率などの各パラメータをBaum-Welch algorithmを用いて学習することができる。このことから、大量の単語列データから、HMMを用いて確率つきネットワーク文法が自動的に獲得できる可能性がある。Ergodic HMMによる言語のモデル化の研究は、村瀬、田本等によって報告されている。これらの報告でHMMに言語をモデル化する能力があることが示されており、さらに田本等は学習後のHMMを解析し、その形態が従来使われているネットワーク文法と類似していることを報告している。しかし、これらの研究では、HMMの学習に単語を品詞などのカテゴリーに分類した言語データを用いている。これに対して、本方式では、カテゴリー分類を与えずに単語列のみをHMMに学習させている。これにより、文法だけでなく、単語のカテゴリーも状態遷移出力の偏りとして同時に学習されることが期待できる。

収録刊行物

  • 全国大会講演論文集

    全国大会講演論文集 第45回 (人工知能及び認知科学), 227-228, 1992-09-28

    情報処理学会

詳細情報 詳細情報について

問題の指摘

ページトップへ