大規模画像認識モデルのFew-shot学習による三次元点群からのシーン理解

抄録

人間中心のサイバーフィジカルシステムやデジタルツインでは,人々の存在や活動を理解し,おかれたシーンを認識することで,現実空間を仮想空間に正しく投影し,様々なアプローチで課題解決することが可能となる.しかし,画像ベースのアプローチは被写体のプライバシに関する課題が知られている.我々の研究グループでは,LiDAR による三次元点群を用いた人流把握および人物行動認識に関する研究に取り組んでおり,歩行者の正確な軌跡推定や行動認識を実現しているが,人々が何をしているかのシーン理解を三次元点群から行うことは物体や人物・行動の認識精度を考慮すると未だ挑戦的な課題である.本研究では,大規模画像認識モデルの Few-shot 学習により,与えられた三次元点群が示すシーンを推定する手法を提案する.提案手法では,三次元点群をある方向からの深度画像に変換し,OpenAI 社の大規模画像認識モデルである CLIP による特徴量を得るとともに,点群分布やその時間変化の特徴量を Fisher Vector で表現する.これらを Linear Probe とよばれるロジスティック回帰アダプタに与えて Few-shot 学習を行うことで,シーン理解を行う.三次元点群の時間的変化を軽量の Fisher Vector で表現し,それを混合した特徴量を CLIP のアダプタに組み込むことで,動的な三次元点群に対しても CLIP を活用した動的シーンの推論を実現している.会議と卓球といった 2 シーンを想定した,混同しやすいシナリオを含む簡易な実証実験を行い,最も学習データが少ない 2 shots の Few-shot 学習において,91.25% の精度を達成した.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ