マルチモーダル基盤におけるマイナーなモーダル間のについて解釈可能性の検討
-
- 太田 博三
- 放送大学
書誌事項
- タイトル別名
-
- Examining the interpretability of minor modals in multimodal foundation model
抄録
<p>最近のマルチモーダル基盤では,音声・テキスト・画像・音楽を中心としたモーダルで構成されている.アニメのキャラクター生成のように,Text-to-Imageが多く見受けられ,その品質もクリエイターに匹敵しAIクリエイターとして代替しつつある.さらにImage-to-Videoも出てきている.これらはTextを起点としており,社会的に受容されつつある.一方,Image-to-MusicやMusic-to-Imageのモーダル間の試みは少ない.技術的には音声・テキストや画像,音楽などの複数の異なるデータを個別にトークン化し,大規模言語モデル(LLM)として,マルチモーダルの理解と生成を自己回帰的に行うものと捉えられる.ブラックボックス化している原因として,人間の感覚との乖離があり,ナレッジグラフやオントロジーの視点で捉えられるかが重要となっている.本稿では,Image-to-VideoとImage-to-Musicの解釈可能性を考察し,今後の見通しを述べる.</p>
収録刊行物
-
- 人工知能学会第二種研究会資料
-
人工知能学会第二種研究会資料 2023 (SWO-062), 10-, 2024-03-23
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390581148793359488
-
- ISSN
- 24365556
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
-
- 抄録ライセンスフラグ
- 使用可