画像キャプショニングは画像そのものよりも多くを語る

書誌事項

タイトル別名
  • Image Captioners Tell More Than Images Given to Them

説明

<p>画像から説明文を生成する画像キャプショニング技術(image-to-text)は,深層学習が登場して以降急速に発展している.この画像キャプショニングによって生成される説明文において,元の画像がもつ情報はどの程度維持されるだろうか? この問いに答えるため,画像を一切見ずに説明文のみから画像を分類する実験を行い,標準的なCNNベースの画像分類との精度比較を行う.災害画像分類タスク,CrisisNLPにおいていくつかの画像キャプショニングモデルを評価し,説明文による分類器が時にCNNベースの分類器を超える精度を達成できることを示す.さらに,CNNベースの分類器と説明文による分類器を統合することでさらなる精度向上が得られることを示す.</p>

収録刊行物

キーワード

詳細情報 詳細情報について

  • CRID
    1390296808221485952
  • DOI
    10.11517/pjsai.jsai2023.0_4a3gs604
  • ISSN
    27587347
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ