人の動作、物体検出およびそれらの位置情報を考慮した動画像からの文生成

漆原 理乃, 小林 一郎

doi:10.11517/pjsai.jsai2018.0_1j102

書誌事項

タイトル別名

Generating Descriptions for Videos based on the Interaction between a Human and Objects considering their Positional Relationship

説明

<p>近年，監視カメラによる不審者の挙動の把握や高齢者の見守り，スポーツの実況中継など，人の動作を言葉によって報告する技術の必要性が高まっており，深層学習を用いた画像や動画像の言語化に関する研究が盛んに行われている．しかし，画像や動画特徴量から直接文章を生成する手法が多く，人間が実際に画像や動画像を見て認識するような事象，特に人の動作について正しく捉えて言語化する手法はほとんどない．そのため，本研究では，深層学習を用いて，動画像中の人の姿勢と物体を正しく捉えた説明文生成に取り組む．具体的には，動画像のフレームごとに人の姿勢情報を抽出し時系列情報として，動作を表す単語を選択する処理と，フレームごとに物体を検出する処理を合わせ，それぞれの処理において得られた結果から動画像説明文生成を行う．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2018 (0), 1J102-1J102, 2018

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390564238000027008

NII論文ID: 130007425494

DOI: 10.11517/pjsai.jsai2018.0_1j102

本文言語コード: ja

データソース種別

JaLC
CiNii Articles

抄録ライセンスフラグ: 使用不可

人の動作、物体検出およびそれらの位置情報を考慮した動画像からの文生成

書誌事項

説明

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

人の動作、物体検出およびそれらの位置情報を考慮した動画像からの文生成

書誌事項

説明

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について