マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定

書誌事項

タイトル別名
  • Semantic Consistency Assessment of Visual and Text Content using Multimodal Deep Neural Networks

説明

<p>ドキュメントに含まれる画像はテキストの内容理解を助ける役割を持つが、画像とテキストの間に整合性が無い場合は、読み手の理解を妨げる恐れがある。ドキュメント作成時の人的ミスやデータの改ざん等により、画像に対してテキストの意味が部分的に変わってしまう場合は、作成者が矛盾点に気付きにくいため、意図せずドキュメントの品質を落としてしまう可能性もある。本研究では、マルチモーダル深層学習を用いて、画像とテキストの整合性判定を行い、画像の物体領域とテキストの単語の関連性を学習するCross Attentionにより、画像とテキストの矛盾点を可視化するモデルを構築する。画像とキャプションが対になったデータセットを元に、キャプションの意味を部分的に変更したデータセットを作成し、提案モデルの有効性を検証すると共に、Cross Attentionにより可視化される画像とテキストの対応関係について考察する。</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390566775142931712
  • NII論文ID
    130007857121
  • DOI
    10.11517/pjsai.jsai2020.0_3q5gs901
  • ISSN
    27587347
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ