自動獲得した未知語の読み・文脈情報による仮名漢字変換

  • 笹田 鉄郎
    京都大学情報学研究科
  • 森 信介
    京都大学情報学研究科 京都大学学術情報メディアセンター
  • 河原 達也
    京都大学情報学研究科 京都大学学術情報メディアセンター

書誌事項

タイトル別名
  • Kana-Kanji Conversion by Using Unknown Word-Pronunciation Pairs with Contexts
  • ジドウ カクトク シタ ミチゴ ノ ヨミ ブンミャク ジョウホウ ニ ヨル カナ カンジ ヘンカン

この論文をさがす

抄録

未知語の問題は,仮名漢字変換における重要な課題の 1 つである.本論文では,内容の類似したテキストと音声から未知語の読み・文脈情報をコーパスとして自動獲得し,仮名漢字変換の精度向上に利用する手法を提案する.まず,確率的な単語分割によって未知語の候補となる単語をテキストから抽出する.次に,各未知語候補の読みを複数推定して列挙する.その後,テキストに類似した内容の音声を認識させることによって正しい読みを選択する.最後に,音声認識結果を学習コーパスとみなして仮名漢字変換のモデルを構築する.自動収集されたニュース記事とニュース音声を用いた実験では,獲得した未知語の読み・文脈情報を仮名漢字変換のための学習コーパスとして用いることで,精度が向上することを確認した.

収録刊行物

  • 自然言語処理

    自然言語処理 17 (4), 131-153, 2010

    一般社団法人 言語処理学会

参考文献 (26)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ