機械翻訳の強化学習に適した報酬関数の調査

中谷 祐貴, 梶原 智之, 二宮 崇

doi:10.11517/pjsai.jsai2022.0_1p4gs604

書誌事項

タイトル別名

A Study of Reward Functions Suitable for Reinforcement Learning in Machine Translation

説明

<p>機械翻訳などのテキスト生成タスクでは、クロスエントロピー損失を用いた訓練が一般的だが、しばしば損失関数と最終的な評価指標のミスマッチが問題となる。この問題には、強化学習による評価指標への直接の最適化によって対処できることが知られている。機械翻訳においては、多くの先行研究が強化学習の報酬計算にBLEUを用いているが、BLEUは人手評価との相関が不十分である。本研究では、人手評価との相関がより高い評価指標を報酬計算に使用し、最終的な機械翻訳の品質への影響を調査する。実験の結果、文間意味的類似度タスクにおいて訓練したBERTを用いた強化学習によって、様々な評価指標を改善できることが明らかになった。</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2022 (0), 1P4GS604-1P4GS604, 2022

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390574181068834688

DOI: 10.11517/pjsai.jsai2022.0_1p4gs604

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘