On Visualizing the Text Generation Process of Image Captioners

【Updated on May 12, 2025】 Integration of CiNii Dissertations and CiNii Books into CiNii Research
Trial version of CiNii Research Knowledge Graph Search feature is available on CiNii Labs
【Updated on June 30, 2025】Suspension and deletion of data provided by Nikkei BP
Regarding the recording of “Research Data” and “Evidence Data”

On Visualizing the Text Generation Process of Image Captioners

KAKEN

越仲孝文

Principal Investigator

横浜市立大学

About This Project

Japan Grant Number: JP24K15012 (JGN)

Funding Program: Grants-in-Aid for Scientific Research

Funding Organization: Japan Society for the Promotion of Science

Kakenhi Information

Project/Area Number: 24K15012

Research Category: Grant-in-Aid for Scientific Research (C)

Allocation Type

Multi-year Fund

Review Section / Research Field

Basic Section 61010:Perceptual information processing-related

Research Institution

Yokohama City University

Project Period (FY): 2024-04-01 〜 2027-03-31

Project Status: Granted

Budget Amount*help: 4,550,000 Yen (Direct Cost: 3,500,000 Yen Indirect Cost: 1,050,000 Yen)

Research Abstract

大規模言語モデルや画像生成モデルといったブラックボックス型の生成AIが人々に期待と不安を与えている．そこで本研究では，生成AIの中では比較的注目されていない画像キャプショニング，すなわち画像説明文生成を取り上げる．音声に含まれる言語情報(発話内容)をテキスト化する音声認識からのアナロジーで，画像説明文生成モデルが画像の何を言語情報として抽出しているのか，逆に何を抽出していないのかを，画像認識モデルとの比較や説明可能AIの手法によって明らかにする．本研究を通して画像説明文生成タスクにおける生成AIの挙動に関する有益な知見を得て，将来の生成AIの安心・安全な普及に貢献する．

On Visualizing the Text Generation Process of Image Captioners

About This Project

Kakenhi Information

Research Abstract

Related Articles

Related Data

Related Books

Related Dissertations

Related Projects

Related Products

Keywords

Details 詳細情報について

Export