大規模言語モデルと汎用性
-
- 相澤 彰子
- 国立情報学研究所
書誌事項
- タイトル別名
-
- The Generalizability of Large-Scale Language Models
説明
<p>事前学習済み言語モデルは、テキストマイニング、機械翻訳、情報検索、情報推薦、言語理解、対話システムなど計算機による言語処理のあらゆるタスクで使われている。特にトランスフォーマー(Transformer)と呼ばれる深層学習モデルの登場以来、大規模化が急速に進み、数千億オーダーのパラメタを持つものも登場している。また画像や文書画像など、多様なモダリティへの言語モデルの拡張も盛んに行われている。これらの大規模言語モデルは多様な言語処理タスクにおいて優れた性能を上げる一方で、その複雑さからモデル自体のふるまいも未解明であるなど、解決するべき問題も多い。それぞれのタスクへの適用においては、ドメイン適応やバイアスの問題などが指摘され、様々な角度からモデルのふるまいや訓練・評価に用いるデータセットの分析などが行われている。本発表ではこれらを概観しながら、言語モデルの汎用性について考察する。</p>
収録刊行物
-
- 人工知能学会第二種研究会資料
-
人工知能学会第二種研究会資料 2022 (AGI-022), 15-, 2022-11-15
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390294113706451328
-
- ISSN
- 24365556
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
-
- 抄録ライセンスフラグ
- 使用可