マルチモーダル大規模言語モデルと画像キャプションに基づく描画内容に即した併置型駄洒落の認識

浅野 歴, 森田 武史, 鵜飼 孝典, 江上 周作, 福田 賢一郎

doi:10.11517/jsaisigtwo.2023.swo-062_11

<p>本研究では，駄洒落文スコア，ランダムフォレスト（RF），マルチモーダル大規模言語モデルGPT-4Vを用いて，駄洒落データベース内の併置型駄洒落が入力画像の描画内容に即しているか否かを認識する手法を提案する．提案手法を評価するために，MS COCOの画像と駄洒落データベース内の併置型駄洒落の組に対して，併置型駄洒落が画像の描画内容に即しているか否かを評価し，データセットを構築した．MS COCOの画像3,500枚を対象に，各画像に対し駄洒落文スコアの高い上位5件の駄洒落を分析した結果，駄洒落文スコアを算出するために提案したどの指標も駄洒落文認識に寄与していた．構築したデータセットを対象に，RFとGPT-4Vを用いた手法を評価した．RFを用いた手法の正解率は0.949となり，描画内容に即していない併置型駄洒落文は高精度に認識できた．GPT-4Vを用いた手法は，適合率，再現率，F値において，RFを用いた手法の精度を上回った．しかし，RFとGPT-4Vを用いた手法の再現率はそれぞれ0.127，0.280と低く，さらなる認識精度の改善が必要であることが明らかとなった．</p>

マルチモーダル大規模言語モデルと画像キャプションに基づく描画内容に即した併置型駄洒落の認識

書誌事項

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

マルチモーダル大規模言語モデルと画像キャプションに基づく描画内容に即した併置型駄洒落の認識

書誌事項

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について