行動条件付けVideoGPTの構築と検証

書誌事項

タイトル別名
  • Construction and Validation of Action-Conditioned VideoGPT

説明

<p>世界モデルは外界の観測をもとに外部構造を獲得するモデルのことであり,エージェントの行動に伴って変化する外界の将来の状態を予想することができる.近年の生成モデルや言語モデルの進歩はマルチモーダルな世界モデルの発展に貢献しており,自動運転やロボティクスなどの多くのドメインでの応用が期待されている.映像予測は,高精細さと長期予測という点で進展した分野であり,時間的表現の獲得を目的とする世界モデルの応用が考えられる.モデルアーキテクチャの例として,再構成タスクを学習することによって観測の潜在的な表現を学習するEncode-Decoderベースの潜在変数モデルと潜在変数列を予想するTransformerベースの自己回帰モデルの組み合わせが良い性能を発揮している.本研究では,VQVAEとImage-GPTを用いたVideoGPTと呼ばれる動画予測モデルに行動条件付けを導入することで拡張した.CARLAとRoboNetを用いた検証の結果,条件付けなしのモデルと比較して性能が向上した.</p>

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ