マルチモーダル大規模言語モデルと画像キャプションに基づく描画内容に即した併置型駄洒落の認識
書誌事項
- タイトル別名
-
- Japanese Pun Recognition Reflecting What is in the Picture Based on Multimodal Large Language Model and Image Captions
抄録
<p>本研究では,駄洒落文スコア,ランダムフォレスト(RF),マルチモーダル大規模言語モデルGPT-4Vを用いて,駄洒落データベース内の併置型駄洒落が入力画像の描画内容に即しているか否かを認識する手法を提案する.提案手法を評価するために,MS COCOの画像と駄洒落データベース内の併置型駄洒落の組に対して,併置型駄洒落が画像の描画内容に即しているか否かを評価し,データセットを構築した.MS COCOの画像3,500枚を対象に,各画像に対し駄洒落文スコアの高い上位5件の駄洒落を分析した結果,駄洒落文スコアを算出するために提案したどの指標も駄洒落文認識に寄与していた.構築したデータセットを対象に,RFとGPT-4Vを用いた手法を評価した.RFを用いた手法の正解率は0.949となり,描画内容に即していない併置型駄洒落文は高精度に認識できた.GPT-4Vを用いた手法は,適合率,再現率,F値において,RFを用いた手法の精度を上回った.しかし,RFとGPT-4Vを用いた手法の再現率はそれぞれ0.127,0.280と低く,さらなる認識精度の改善が必要であることが明らかとなった.</p>
収録刊行物
-
- 人工知能学会第二種研究会資料
-
人工知能学会第二種研究会資料 2023 (SWO-062), 11-, 2024-03-23
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390862623770070400
-
- ISSN
- 24365556
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
-
- 抄録ライセンスフラグ
- 使用可