マルチモーダル基盤におけるマイナーなモーダル間のについて解釈可能性の検討

DOI

書誌事項

タイトル別名
  • Examining the interpretability of minor modals in multimodal foundation model

抄録

<p>最近のマルチモーダル基盤では,音声・テキスト・画像・音楽を中心としたモーダルで構成されている.アニメのキャラクター生成のように,Text-to-Imageが多く見受けられ,その品質もクリエイターに匹敵しAIクリエイターとして代替しつつある.さらにImage-to-Videoも出てきている.これらはTextを起点としており,社会的に受容されつつある.一方,Image-to-MusicやMusic-to-Imageのモーダル間の試みは少ない.技術的には音声・テキストや画像,音楽などの複数の異なるデータを個別にトークン化し,大規模言語モデル(LLM)として,マルチモーダルの理解と生成を自己回帰的に行うものと捉えられる.ブラックボックス化している原因として,人間の感覚との乖離があり,ナレッジグラフやオントロジーの視点で捉えられるかが重要となっている.本稿では,Image-to-VideoとImage-to-Musicの解釈可能性を考察し,今後の見通しを述べる.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390581148793359488
  • DOI
    10.11517/jsaisigtwo.2023.swo-062_10
  • ISSN
    24365556
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用可

問題の指摘

ページトップへ