意味と表層の類似度を制御可能な言い換えによるデータ拡張

小笠 雄也, 梶原 智之, 荒瀬 由紀

doi:10.5715/jnlp.31.1458

書誌事項

タイトル別名

Data Augmentation by Paraphrasing with Controllable Semantic and Lexical Similarities

説明

<p>表層が大きく異なる言い換えはデータ拡張に有益である一方，その生成は難しいことが知られている．本論文では，デコーダにサンプリングを適用した折り返し翻訳により生成する多様な疑似言い換えから表層が大きく異なる言い換えペアを抽出することで学習コーパスを構築し，所望の言い換えを生成可能なモデルを実現した．さらに意味および表層の類似度を指定するタグを入力文の先頭に付けるというシンプルな仕組みにより，これらの類似度を制御する．対照学習および事前学習済み言語モデルの pre-fine-tuning においてデータ拡張を行い，提案手法の有効性を確認した．さらに (1) 言い換えの適切な類似度は downstream task に大きく依存すること，(2) 様々な類似度の言い換えが混在すると downstream task に悪影響を与えることを明らかにした．</p>

収録刊行物

自然言語処理

自然言語処理 31 (4), 1458-1486, 2024

一般社団法人　言語処理学会

詳細情報詳細情報について

CRID: 1390584022341899520

DOI: 10.5715/jnlp.31.1458

ISSN: 21858314; 13407619

Web Site: https://www.jstage.jst.go.jp/article/jnlp/31/4/31_1458/_pdf

本文言語コード: ja

データソース種別

JaLC
Crossref

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘

意味と表層の類似度を制御可能な言い換えによるデータ拡張

書誌事項

この論文をさがす

説明

収録刊行物

参考文献 (48)*注記

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

意味と表層の類似度を制御可能な言い換えによるデータ拡張

書誌事項

この論文をさがす

説明

収録刊行物

参考文献 (48)*注記

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について