マルチモーダル基盤におけるマイナーなモーダル間のについて解釈可能性の検討

太田 博三

doi:10.11517/jsaisigtwo.2023.swo-062_10

書誌事項

タイトル別名

Examining the interpretability of minor modals in multimodal foundation model

抄録

<p>最近のマルチモーダル基盤では，音声・テキスト・画像・音楽を中心としたモーダルで構成されている．アニメのキャラクター生成のように，Text-to-Imageが多く見受けられ，その品質もクリエイターに匹敵しAIクリエイターとして代替しつつある．さらにImage-to-Videoも出てきている．これらはTextを起点としており，社会的に受容されつつある．一方，Image-to-MusicやMusic-to-Imageのモーダル間の試みは少ない．技術的には音声・テキストや画像，音楽などの複数の異なるデータを個別にトークン化し，大規模言語モデル（LLM）として，マルチモーダルの理解と生成を自己回帰的に行うものと捉えられる．ブラックボックス化している原因として，人間の感覚との乖離があり，ナレッジグラフやオントロジーの視点で捉えられるかが重要となっている．本稿では，Image-to-VideoとImage-to-Musicの解釈可能性を考察し，今後の見通しを述べる．</p>

収録刊行物

人工知能学会第二種研究会資料

人工知能学会第二種研究会資料 2023 (SWO-062), 10-, 2024-03-23

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390581148793359488

DOI: 10.11517/jsaisigtwo.2023.swo-062_10

ISSN: 24365556

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用可

マルチモーダル基盤におけるマイナーなモーダル間のについて解釈可能性の検討

書誌事項

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

マルチモーダル基盤におけるマイナーなモーダル間のについて解釈可能性の検討

書誌事項

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について