ニューラル機械翻訳におけるコーパスフィルタリングに関する固有表現に注目した分析
書誌事項
- タイトル別名
-
- Corpus Filtering Focusing on Named Entities for Neural Machine Translation
抄録
<p>ニューラル機械翻訳の学習に用いるコーパスの中には,機械翻訳システムの学習に悪影響を及ぼす文が存在することが考えられる。多くの out-of-vocabulary を含むようなノイズ文を学習コーパスから取り除くことで,より良い翻訳をできるモデルを学習することが見込まれる。固有表現の多くは低頻度なため out-of-vocabulary として扱われるため,本稿では「固有表現が多く含まれた文」に着目する。我々は byte pair encoding を用いる手法と固有表現抽出を用いる手法の2種類の手法を提案する。両手法で,日英の言語対の学習コーパスからノイズ文を取り除くことで,BLEUスコアが0.5ポイント統計的有意に改善した。分析ではどちらの手法でも名詞の接尾辞や冠詞,出力文長などの誤りが改善されていることが分かった。</p>
収録刊行物
-
- 人工知能学会全国大会論文集
-
人工知能学会全国大会論文集 JSAI2019 (0), 4Rin106-4Rin106, 2019
一般社団法人 人工知能学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1390282763120938624
-
- NII論文ID
- 130007658892
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用不可