意味と表層の類似度を制御可能な言い換えによるデータ拡張

書誌事項

タイトル別名
  • Data Augmentation by Paraphrasing with Controllable Semantic and Lexical Similarities

この論文をさがす

説明

<p>表層が大きく異なる言い換えはデータ拡張に有益である一方,その生成は難しいことが知られている.本論文では,デコーダにサンプリングを適用した折り返し翻訳により生成する多様な疑似言い換えから表層が大きく異なる言い換えペアを抽出することで学習コーパスを構築し,所望の言い換えを生成可能なモデルを実現した.さらに意味および表層の類似度を指定するタグを入力文の先頭に付けるというシンプルな仕組みにより,これらの類似度を制御する.対照学習および事前学習済み言語モデルの pre-fine-tuning においてデータ拡張を行い,提案手法の有効性を確認した.さらに (1) 言い換えの適切な類似度は downstream task に大きく依存すること,(2) 様々な類似度の言い換えが混在すると downstream task に悪影響を与えることを明らかにした.</p>

収録刊行物

  • 自然言語処理

    自然言語処理 31 (4), 1458-1486, 2024

    一般社団法人 言語処理学会

参考文献 (48)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ