行動条件付けVideoGPTの構築と検証

田畑 浩大, 蒲原 惇乃輔, 海野 良介, 佐藤 誠人, 渡部 泰樹, 久米 大雅, 根岸 優大, 岡田 領, 岩澤 有祐, 松尾 豊

doi:10.11517/pjsai.jsai2023.0_1g4os21a02

書誌事項

タイトル別名

Construction and Validation of Action-Conditioned VideoGPT

説明

<p>世界モデルは外界の観測をもとに外部構造を獲得するモデルのことであり，エージェントの行動に伴って変化する外界の将来の状態を予想することができる．近年の生成モデルや言語モデルの進歩はマルチモーダルな世界モデルの発展に貢献しており，自動運転やロボティクスなどの多くのドメインでの応用が期待されている．映像予測は，高精細さと長期予測という点で進展した分野であり，時間的表現の獲得を目的とする世界モデルの応用が考えられる．モデルアーキテクチャの例として，再構成タスクを学習することによって観測の潜在的な表現を学習するEncode-Decoderベースの潜在変数モデルと潜在変数列を予想するTransformerベースの自己回帰モデルの組み合わせが良い性能を発揮している．本研究では，VQVAEとImage-GPTを用いたVideoGPTと呼ばれる動画予測モデルに行動条件付けを導入することで拡張した．CARLAとRoboNetを用いた検証の結果，条件付けなしのモデルと比較して性能が向上した．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2023 (0), 1G4OS21a02-1G4OS21a02, 2023

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390296808221013504

DOI: 10.11517/pjsai.jsai2023.0_1g4os21a02

ISSN: 27587347

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘