On Visualizing the Text Generation Process of Image Captioners

About This Project

Japan Grant Number
JP24K15012 (JGN)
Funding Program
Grants-in-Aid for Scientific Research
Funding Organization
Japan Society for the Promotion of Science

Kakenhi Information

Project/Area Number
24K15012
Research Category
Grant-in-Aid for Scientific Research (C)
Allocation Type
  • Multi-year Fund
Review Section / Research Field
  • Basic Section 61010:Perceptual information processing-related
Research Institution
  • Yokohama City University
Project Period (FY)
2024-04-01 〜 2027-03-31
Project Status
Granted
Budget Amount*help
4,550,000 Yen (Direct Cost: 3,500,000 Yen Indirect Cost: 1,050,000 Yen)

Research Abstract

大規模言語モデルや画像生成モデルといったブラックボックス型の生成AIが人々に期待と不安を与えている.そこで本研究では,生成AIの中では比較的注目されていない画像キャプショニング,すなわち画像説明文生成を取り上げる.音声に含まれる言語情報(発話内容)をテキスト化する音声認識からのアナロジーで,画像説明文生成モデルが画像の何を言語情報として抽出しているのか,逆に何を抽出していないのかを,画像認識モデルとの比較や説明可能AIの手法によって明らかにする.本研究を通して画像説明文生成タスクにおける生成AIの挙動に関する有益な知見を得て,将来の生成AIの安心・安全な普及に貢献する.

Related Articles

See more

Related Data

See more

Related Books

See more

Related Dissertations

See more

Related Projects

See more

Related Products

See more

Details 詳細情報について

Back to top