書誌事項
- タイトル別名
-
- Unsupervised Quality Estimation via Multilingual Denoising Autoencoder
説明
<p>品質推定の教師あり学習は,言語対ごとに翻訳品質ラベルを人手で付与する必要があり,コストが高い.そこで,対訳コーパスのみで訓練された機械翻訳器を用いる教師なし品質推定が研究されているが,既存手法は少資源言語対では性能が低下する.本研究では,事前訓練された多言語雑音除去自己符号化器を活用することで,大規模な対訳コーパスが存在しない言語対にも適用可能な教師なし品質推定を提案する.具体的には,多言語雑音除去自己符号化器を対訳コーパスを用いて再訓練することで多言語機械翻訳器を構築する.そして,評価対象の機械翻訳器による出力文を原文から forced-decoding する際の文生成確率によって翻訳品質を推定する.大規模な単言語コーパスにより事前訓練された多言語雑音除去自己符号化器は言語間の特性を捉えられるため,提案手法では少資源または対訳コーパスが存在しない言語対においても品質推定が可能となる.WMT20 の品質推定タスクにおける評価の結果,提案手法は 6 言語対のうち 5 言語対について,ブラックボックス設定における教師なし品質推定の最高性能を達成した.詳細な分析の結果,ゼロショット設定の品質推定においても提案手法は良好な性能を示すことが明らかとなった.</p>
収録刊行物
-
- 自然言語処理
-
自然言語処理 29 (2), 669-687, 2022
一般社団法人 言語処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390010931108743424
-
- ISSN
- 21858314
- 13407619
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- Crossref
- KAKEN
- OpenAIRE
-
- 抄録ライセンスフラグ
- 使用不可