Generating Descriptions for Videos based on the Interaction between a Human and Objects considering their Positional Relationship

URUSHIHARA Rino, KOBAYASHI Ichiro

doi:10.11517/pjsai.jsai2018.0_1j102

Bibliographic Information

Other Title

人の動作、物体検出およびそれらの位置情報を考慮した動画像からの文生成

Description

<p>近年，監視カメラによる不審者の挙動の把握や高齢者の見守り，スポーツの実況中継など，人の動作を言葉によって報告する技術の必要性が高まっており，深層学習を用いた画像や動画像の言語化に関する研究が盛んに行われている．しかし，画像や動画特徴量から直接文章を生成する手法が多く，人間が実際に画像や動画像を見て認識するような事象，特に人の動作について正しく捉えて言語化する手法はほとんどない．そのため，本研究では，深層学習を用いて，動画像中の人の姿勢と物体を正しく捉えた説明文生成に取り組む．具体的には，動画像のフレームごとに人の姿勢情報を抽出し時系列情報として，動作を表す単語を選択する処理と，フレームごとに物体を検出する処理を合わせ，それぞれの処理において得られた結果から動画像説明文生成を行う．</p>

Journal

Proceedings of the Annual Conference of JSAI

Proceedings of the Annual Conference of JSAI JSAI2018 (0), 1J102-1J102, 2018

The Japanese Society for Artificial Intelligence

Details 詳細情報について

CRID: 1390564238000027008

NII Article ID: 130007425494

DOI: 10.11517/pjsai.jsai2018.0_1j102

Text Lang: ja

Data Source

JaLC
CiNii Articles

Abstract License Flag: Disallowed

Export