書誌事項
- タイトル別名
-
- Data Augmentation by Paraphrasing with Controllable Semantic and Lexical Similarities
この論文をさがす
説明
<p>表層が大きく異なる言い換えはデータ拡張に有益である一方,その生成は難しいことが知られている.本論文では,デコーダにサンプリングを適用した折り返し翻訳により生成する多様な疑似言い換えから表層が大きく異なる言い換えペアを抽出することで学習コーパスを構築し,所望の言い換えを生成可能なモデルを実現した.さらに意味および表層の類似度を指定するタグを入力文の先頭に付けるというシンプルな仕組みにより,これらの類似度を制御する.対照学習および事前学習済み言語モデルの pre-fine-tuning においてデータ拡張を行い,提案手法の有効性を確認した.さらに (1) 言い換えの適切な類似度は downstream task に大きく依存すること,(2) 様々な類似度の言い換えが混在すると downstream task に悪影響を与えることを明らかにした.</p>
収録刊行物
-
- 自然言語処理
-
自然言語処理 31 (4), 1458-1486, 2024
一般社団法人 言語処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1390584022341899520
-
- ISSN
- 21858314
- 13407619
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- Crossref
-
- 抄録ライセンスフラグ
- 使用不可