マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定

鈴木 莉子, 小西 幹人, 池田 順哉, 林 大地, 深井 颯, 菅原 優, 町井 湧介, 山浦 佑介

doi:10.11517/pjsai.jsai2020.0_3q5gs901

書誌事項

タイトル別名

Semantic Consistency Assessment of Visual and Text Content using Multimodal Deep Neural Networks

説明

<p>ドキュメントに含まれる画像はテキストの内容理解を助ける役割を持つが、画像とテキストの間に整合性が無い場合は、読み手の理解を妨げる恐れがある。ドキュメント作成時の人的ミスやデータの改ざん等により、画像に対してテキストの意味が部分的に変わってしまう場合は、作成者が矛盾点に気付きにくいため、意図せずドキュメントの品質を落としてしまう可能性もある。本研究では、マルチモーダル深層学習を用いて、画像とテキストの整合性判定を行い、画像の物体領域とテキストの単語の関連性を学習するCross Attentionにより、画像とテキストの矛盾点を可視化するモデルを構築する。画像とキャプションが対になったデータセットを元に、キャプションの意味を部分的に変更したデータセットを作成し、提案モデルの有効性を検証すると共に、Cross Attentionにより可視化される画像とテキストの対応関係について考察する。</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2020 (0), 3Q5GS901-3Q5GS901, 2020

一般社団法人人工知能学会

キーワード

詳細情報詳細情報について

CRID: 1390566775142931712

NII論文ID: 130007857121

DOI: 10.11517/pjsai.jsai2020.0_3q5gs901

ISSN: 27587347

本文言語コード: ja

データソース種別

JaLC
CiNii Articles

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘