シーングラフとGPTに基づく画像に関連する併置型駄洒落生成

後藤 颯志, 浅野 歴, 森田 武史

doi:10.11517/jsaisigtwo.2023.swo-062_04

<p>ソーシャルロボットが周辺状況と文脈を考慮して，ユーモア表現を生成できるようになれば，人間とのより円滑な対話が可能になると考えられる．本研究では，ユーモア表現として併置型駄洒落に着目し，画像に関連する併置型駄洒落生成を目的とする．提案手法では，まずシーングラフを用いて画像に描画された物体間の関係を抽出し，大規模言語モデル（GPT-3.5）を用いてそれらの関係を画像キャプションに変換する．次に，マルチモーダル大規模言語モデル（GPT-4V）を用いて画像から主要物体を抽出し，併置型駄洒落における種表現とする．次に，GPT-3.5を用いて種表現と母音が類似する単語を生成し，種表現と音韻類似度の高い単語を変形表現として抽出する．最後に，画像キャプション，種表現，変形表現を用いて画像の描画内容に関連する併置型駄洒落を生成する．評価実験では，提案手法を用いてシーングラフが付与された画像100枚中29枚の画像に対して併置型駄洒落候補が生成できた．10名の被験者によるアンケート評価を行った結果，これらの候補の内94%は画像に関連していたが，併置型駄洒落として成立していたのは37%であった．</p>

シーングラフとGPTに基づく画像に関連する併置型駄洒落生成

書誌事項

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

シーングラフとGPTに基づく画像に関連する併置型駄洒落生成

書誌事項

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について