視覚的仮説推論に関する検討
書誌事項
- タイトル別名
-
- A study of Visual Abductive Reasoning
抄録
<p>人間は視覚的な仮説推論能力を持っており,画像中の特定の部分 (注目領域) から,画像だけでは非自明な状況を経験や知識に基づいて、拡張して推論することができる.例えば,お皿いっぱいに食べ物を盛っている人を見れば,たとえその人のことをよく知らなくても「この人はお腹が空いているのだろう」と考えることができる.では,計算機はこのような視覚的な仮説推論を行うことができるのだろうか? 本研究では,視覚的仮説推論について,画像内の物体や行動などの注目領域に対する(i)具体的な手掛かりとなる情報,および(ii)そこから推論できる情報の2つのキャプションが付与されたsherlockデータセットを用いて,非自明な仮説推論を画像からEnd-to-Endに生成できるかをを最先端の画像モデルと文章生成モデルを使用して分析する. その結果として,事前学習済みの言語画像モデルに対し注目領域を理解するように追加学習を施し,これを文章生成モデルと組み合わせることで,ある程度視覚的な仮説推論ができることを報告する.</p>
収録刊行物
-
- 人工知能学会全国大会論文集
-
人工知能学会全国大会論文集 JSAI2023 (0), 3E1GS202-3E1GS202, 2023
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390578283197981056
-
- ISSN
- 27587347
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
-
- 抄録ライセンスフラグ
- 使用不可