フレーズ・トークン込みNMTモデル及びSMTによる大語彙フレーズ翻訳によるハイブリッド翻訳方式
書誌事項
- タイトル別名
-
- Hybrid MT Based on NMT Model Trained with Phrase Tokens and Large Vocabulary Phrase Translation by SMT
抄録
ニューラル機械翻訳(NMT)の弱点の一つとして,扱える語彙に限りがある点が知られている.NMTにおいては,語彙辞書に含まれていない単語は未知語トークンとして出力されるため,これが誤訳となる.従来法では,出力文に含まれた未知語トークンが対応する原言語の単語を推定しその訳語に置き換えることによって,NMTにおいて出力可能となる語彙の規模を拡大した.しかし,この方式は,単語単位での語彙規模の拡大にとどまる点が弱点であった.本論文においては,ニューラル翻訳において,大規模フレーズ語彙に対応する方式を提案する.具体的には,訓練用対訳文においてフレーズ間の二言語対応の情報を収集し,二言語間で対応済みのフレーズ対訳対を同一のトークンに置き換えた後,NMTモデルの訓練を行う.翻訳時には,NMTモデルの語彙集合中の語彙部分に対しては,NMTモデルによる訳文生成がなされ,一方,その他のフレーズまたは単語語彙部分に対しては,SMTモデルによる翻訳がなされる.日中,中日,日英,英日の各方向の翻訳において評価を行い,提案手法の有効性を検証した.
収録刊行物
-
- 電子情報通信学会論文誌D 情報・システム
-
電子情報通信学会論文誌D 情報・システム J102-D (3), 104-117, 2019-03-01
The Institute of Electronics, Information and Communication Engineers
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390001288123956096
-
- ISSN
- 18810225
- 18804535
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
-
- 抄録ライセンスフラグ
- 使用不可