文レベルの機械翻訳評価尺度に関する調査

Graham Neubig

本研究では,近年提案されている機械翻訳の自動評価尺度を翻訳文品質の判定能力の観点から調査する.具体的には,日英,英日,仏英翻訳の計 4 タスクにおいて,4 つのシステムの出力に対して人手評価を行い,その結果に基づいて,5 種類の自動評価尺度を分析する.最初の実験では,人手による誤り分析を行う前段階として,自動評価尺度を用いて誤り文を特定する可能性について調査する.次の実験では,システム統合などで必要となる複数のシステムによる翻訳候補の優劣判定能力について調査する.両方の調査の結果,すべての自動評価尺度は,別の評価者による人手評価から得られるアノテータ間一致を大幅に下回っており,文レベルの自動翻訳評価に大きな課題が残っていることが分かった.しかし,複数の参照文を用いることにより翻訳品質判定能力が文レベルでも向上する結果も見られた.

文レベルの機械翻訳評価尺度に関する調査

Search this article

Description

Journal

Keywords

Details 詳細情報について

Export

Report a problem