マルチモーダル大規模言語モデルと画像キャプションに基づく描画内容に即した併置型駄洒落の認識

DOI

書誌事項

タイトル別名
  • Japanese Pun Recognition Reflecting What is in the Picture Based on Multimodal Large Language Model and Image Captions

抄録

<p>本研究では,駄洒落文スコア,ランダムフォレスト(RF),マルチモーダル大規模言語モデルGPT-4Vを用いて,駄洒落データベース内の併置型駄洒落が入力画像の描画内容に即しているか否かを認識する手法を提案する.提案手法を評価するために,MS COCOの画像と駄洒落データベース内の併置型駄洒落の組に対して,併置型駄洒落が画像の描画内容に即しているか否かを評価し,データセットを構築した.MS COCOの画像3,500枚を対象に,各画像に対し駄洒落文スコアの高い上位5件の駄洒落を分析した結果,駄洒落文スコアを算出するために提案したどの指標も駄洒落文認識に寄与していた.構築したデータセットを対象に,RFとGPT-4Vを用いた手法を評価した.RFを用いた手法の正解率は0.949となり,描画内容に即していない併置型駄洒落文は高精度に認識できた.GPT-4Vを用いた手法は,適合率,再現率,F値において,RFを用いた手法の精度を上回った.しかし,RFとGPT-4Vを用いた手法の再現率はそれぞれ0.127,0.280と低く,さらなる認識精度の改善が必要であることが明らかとなった.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390862623770070400
  • DOI
    10.11517/jsaisigtwo.2023.swo-062_11
  • ISSN
    24365556
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用可

問題の指摘

ページトップへ