制御可能な日本語時間推論データセットの構築

DOI

書誌事項

タイトル別名
  • Controllable Japanese Temporal Inference Dataset

抄録

<p>時間に関する自然言語推論は事前学習済み言語モデルにとって挑戦的なタスクである.そのため,これまで様々な評価用データセットが構築されてきた.しかし,既存のデータセットは主に英語を対象としており,他言語を扱ったものは少ない.そこで本研究では,時間推論に関する日本語NLIベンチマークを構築する.提案手法では,まず形式意味論のテストセットに基づいて様々な推論パターンからなる時間推論テンプレートを作成する.次に,テンプレートに対して日本語格フレームを用いて動詞や名詞,時間表現を自動で割り当てることで,多様な時間推論の問題を生成する.構築したデータセットを制御して分割し,言語モデルの学習・評価に用いることで,時間推論パターンや時間表現における多言語・単言語の言語モデルの汎化性能を評価する.実験により,既存の言語モデルは習慣などの特定の言語現象の理解に課題があることを示す.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390578283197713408
  • DOI
    10.11517/pjsai.jsai2023.0_1e4gs602
  • ISSN
    27587347
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ