機械翻訳の強化学習に適した報酬関数の調査

書誌事項

タイトル別名
  • A Study of Reward Functions Suitable for Reinforcement Learning in Machine Translation

説明

<p>機械翻訳などのテキスト生成タスクでは、クロスエントロピー損失を用いた訓練が一般的だが、しばしば損失関数と最終的な評価指標のミスマッチが問題となる。この問題には、強化学習による評価指標への直接の最適化によって対処できることが知られている。機械翻訳においては、多くの先行研究が強化学習の報酬計算にBLEUを用いているが、BLEUは人手評価との相関が不十分である。本研究では、人手評価との相関がより高い評価指標を報酬計算に使用し、最終的な機械翻訳の品質への影響を調査する。実験の結果、文間意味的類似度タスクにおいて訓練したBERTを用いた強化学習によって、様々な評価指標を改善できることが明らかになった。</p>

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ