マルチストリーム3次元畳み込みネットワークによる外観・動作・音声情報を統合した映像質問応答

DOI
  • 宮西 大樹
    国際電気通信基礎技術研究所 理化学研究所 革新知能統合研究センター
  • 川鍋 一晃
    国際電気通信基礎技術研究所 理化学研究所 革新知能統合研究センター

書誌事項

タイトル別名
  • Open-ended Video Question Answering with Multi-stream 3D Convolutional Networks

抄録

<p>本研究では,外観・動作・音声情報を同時に用いて,映像に対する質問に回答するオープンエンド型のマルチモーダル映像質問応答手法を提案する.音声情報は映像コンテンツを理解するために視覚情報と合わせて有用だと考えられるものの,既存手法の多くは動作と外観情報を利用しており,音声情報は利用されていない.また,外観・動作・音声情報を用いた一部の先行研究では,詳細なマルチモーダルデータを効果的に統合することができなかったため,あまり良い結果が得られていなかった.これらの問題を解決するため,我々はテキスト情報で条件付けしたマルチストリーム3次元畳み込みネットワーク(3D ConvNets)手法を提案する。我々のモデルでは,複数の3D ConvNets上で微細なマルチモーダル情報を表現し,質問の意味内容で条件付した時空間情報を用いて解答を予測する.公開されている音声トラック付きの映像質問応答データセットMSRVTT-QAとActivityNet-QAを用いた実験結果から,我々の手法は,動作・外観・音声情報を効果的に組み合わせ,最先端の手法よりも優れた結果を示すことができた.</p>

収録刊行物

キーワード

詳細情報 詳細情報について

  • CRID
    1390851320454046720
  • NII論文ID
    130008051725
  • DOI
    10.11517/pjsai.jsai2021.0_2yin505
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ