意味空間の画像表現について

近山, 英輔, 中田 豊久

深層学習の技術発展により生まれた大規模言語モデル（LLM）は人間社会を変革する発明であると期待されている。画像処理分野でも様々な人工知能（AI）タスクが高精度で達成されつつある。マルチモーダル AI では画像の輝度値パターン類似性が用いられているが、画像の意味解釈は輝度値パターンだけで簡単に計算できない。今回 MS COCO キャプションデータセットと、LLM のfalcon 7b instruct、および対称差集合の手法を用いて画像キャプション間関係性を定量する問題にアプローチした予備段階的結果について述べる。5000 画像のキャプションに対する MS COCO の 7254 トークンと、それらのキャプションから LLM で連想された 20113 トークンについて画像に関連付け、トークン集合間対称差集合要素数を画像間距離と解釈して分析結果を得た。Falcon 7b instruct（MS COCO）に関して対称差距離の最小値は 69（7）、最大値は 425（95）、共通部分要素数の最大値は 84（22）、最小値は 9（0）、和集合要素数の最小値は 105（21）、最大値は 467（101）であった。

意味空間の画像表現について

書誌事項

この論文をさがす

説明

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

意味空間の画像表現について

書誌事項

この論文をさがす

説明

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について