話し言葉から書き言葉への変換における対訳単位分割
この論文をさがす
説明
統計的機械翻訳を用いて日本語の話し言葉を書き言葉に変換する。話し言葉は書き言葉にはない表現があり、また可読性が良くないという特徴がある。また、例えば機械翻訳は書き言葉向けに開発されてきたことから、音声認識結果を機械翻訳する場合は、話し言葉を書き言葉に整形することによって翻訳精度が向上する。本研究では、統計的機械翻訳のモデル学習で用いる対訳コーパスの対訳単位に着目した。発言単位で対応付けられた話し言葉と書き言葉との対訳コーパスに対して、文単位・文節単位など複数種類の対訳コーパスを生成した。これらの対訳コーパスを用いて話し言葉から書き言葉への変換に関する評価実験を行い、対訳単位の違いと変換精度の関係について検証を行った。
収録刊行物
-
- 第77回全国大会講演論文集
-
第77回全国大会講演論文集 2015 (1), 203-204, 2015-03-17
情報処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1050574047108053632
-
- NII論文ID
- 170000164822
-
- NII書誌ID
- AN00349328
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB
- CiNii Articles