大規模言語モデルと汎用性

書誌事項

タイトル別名
  • The Generalizability of Large-Scale Language Models

説明

<p>事前学習済み言語モデルは、テキストマイニング、機械翻訳、情報検索、情報推薦、言語理解、対話システムなど計算機による言語処理のあらゆるタスクで使われている。特にトランスフォーマー(Transformer)と呼ばれる深層学習モデルの登場以来、大規模化が急速に進み、数千億オーダーのパラメタを持つものも登場している。また画像や文書画像など、多様なモダリティへの言語モデルの拡張も盛んに行われている。これらの大規模言語モデルは多様な言語処理タスクにおいて優れた性能を上げる一方で、その複雑さからモデル自体のふるまいも未解明であるなど、解決するべき問題も多い。それぞれのタスクへの適用においては、ドメイン適応やバイアスの問題などが指摘され、様々な角度からモデルのふるまいや訓練・評価に用いるデータセットの分析などが行われている。本発表ではこれらを概観しながら、言語モデルの汎用性について考察する。</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390294113706451328
  • DOI
    10.11517/jsaisigtwo.2022.agi-022_15
  • ISSN
    24365556
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用可

問題の指摘

ページトップへ