マルチストリーム3次元畳み込みネットワークによる外観・動作・音声情報を統合した映像質問応答
書誌事項
- タイトル別名
-
- Open-ended Video Question Answering with Multi-stream 3D Convolutional Networks
抄録
<p>本研究では,外観・動作・音声情報を同時に用いて,映像に対する質問に回答するオープンエンド型のマルチモーダル映像質問応答手法を提案する.音声情報は映像コンテンツを理解するために視覚情報と合わせて有用だと考えられるものの,既存手法の多くは動作と外観情報を利用しており,音声情報は利用されていない.また,外観・動作・音声情報を用いた一部の先行研究では,詳細なマルチモーダルデータを効果的に統合することができなかったため,あまり良い結果が得られていなかった.これらの問題を解決するため,我々はテキスト情報で条件付けしたマルチストリーム3次元畳み込みネットワーク(3D ConvNets)手法を提案する。我々のモデルでは,複数の3D ConvNets上で微細なマルチモーダル情報を表現し,質問の意味内容で条件付した時空間情報を用いて解答を予測する.公開されている音声トラック付きの映像質問応答データセットMSRVTT-QAとActivityNet-QAを用いた実験結果から,我々の手法は,動作・外観・音声情報を効果的に組み合わせ,最先端の手法よりも優れた結果を示すことができた.</p>
収録刊行物
-
- 人工知能学会全国大会論文集
-
人工知能学会全国大会論文集 JSAI2021 (0), 2Yin505-2Yin505, 2021
一般社団法人 人工知能学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1390851320454046720
-
- NII論文ID
- 130008051725
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用不可