視覚的仮説推論に関する検討

長澤 春希, 松本 悠太, 長谷川 拓, 西田 京介, 鈴木 潤

doi:10.11517/pjsai.jsai2023.0_3e1gs202

<p>人間は視覚的な仮説推論能力を持っており，画像中の特定の部分 (注目領域) から，画像だけでは非自明な状況を経験や知識に基づいて、拡張して推論することができる．例えば，お皿いっぱいに食べ物を盛っている人を見れば，たとえその人のことをよく知らなくても「この人はお腹が空いているのだろう」と考えることができる．では，計算機はこのような視覚的な仮説推論を行うことができるのだろうか？本研究では，視覚的仮説推論について，画像内の物体や行動などの注目領域に対する(i)具体的な手掛かりとなる情報，および(ii)そこから推論できる情報の2つのキャプションが付与されたsherlockデータセットを用いて，非自明な仮説推論を画像からEnd-to-Endに生成できるかをを最先端の画像モデルと文章生成モデルを使用して分析する．その結果として，事前学習済みの言語画像モデルに対し注目領域を理解するように追加学習を施し，これを文章生成モデルと組み合わせることで，ある程度視覚的な仮説推論ができることを報告する．</p>

視覚的仮説推論に関する検討

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

視覚的仮説推論に関する検討

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について