大規模言語モデルと汎用性

相澤 彰子

doi:10.11517/jsaisigtwo.2022.agi-022_15

書誌事項

タイトル別名

The Generalizability of Large-Scale Language Models

説明

<p>事前学習済み言語モデルは、テキストマイニング、機械翻訳、情報検索、情報推薦、言語理解、対話システムなど計算機による言語処理のあらゆるタスクで使われている。特にトランスフォーマー（Transformer）と呼ばれる深層学習モデルの登場以来、大規模化が急速に進み、数千億オーダーのパラメタを持つものも登場している。また画像や文書画像など、多様なモダリティへの言語モデルの拡張も盛んに行われている。これらの大規模言語モデルは多様な言語処理タスクにおいて優れた性能を上げる一方で、その複雑さからモデル自体のふるまいも未解明であるなど、解決するべき問題も多い。それぞれのタスクへの適用においては、ドメイン適応やバイアスの問題などが指摘され、様々な角度からモデルのふるまいや訓練・評価に用いるデータセットの分析などが行われている。本発表ではこれらを概観しながら、言語モデルの汎用性について考察する。</p>

収録刊行物

人工知能学会第二種研究会資料

人工知能学会第二種研究会資料 2022 (AGI-022), 15-, 2022-11-15

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390294113706451328

DOI: 10.11517/jsaisigtwo.2022.agi-022_15

ISSN: 24365556

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用可

書き出し

問題の指摘