視覚的仮説推論に関する検討

DOI

書誌事項

タイトル別名
  • A study of Visual Abductive Reasoning

抄録

<p>人間は視覚的な仮説推論能力を持っており,画像中の特定の部分 (注目領域) から,画像だけでは非自明な状況を経験や知識に基づいて、拡張して推論することができる.例えば,お皿いっぱいに食べ物を盛っている人を見れば,たとえその人のことをよく知らなくても「この人はお腹が空いているのだろう」と考えることができる.では,計算機はこのような視覚的な仮説推論を行うことができるのだろうか? 本研究では,視覚的仮説推論について,画像内の物体や行動などの注目領域に対する(i)具体的な手掛かりとなる情報,および(ii)そこから推論できる情報の2つのキャプションが付与されたsherlockデータセットを用いて,非自明な仮説推論を画像からEnd-to-Endに生成できるかをを最先端の画像モデルと文章生成モデルを使用して分析する. その結果として,事前学習済みの言語画像モデルに対し注目領域を理解するように追加学習を施し,これを文章生成モデルと組み合わせることで,ある程度視覚的な仮説推論ができることを報告する.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390578283197981056
  • DOI
    10.11517/pjsai.jsai2023.0_3e1gs202
  • ISSN
    27587347
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ