口パク動画の発話内容推測における距離学習に基づく精度向上手法

この論文をさがす

抄録

本稿では,声を出さない口パク時の唇の動画から発話内容を推測する手法を提案する.一般に唇の動きは,声を出す通常の話し方(有声動作)と声を出さない口パク時の話し方(無声動作)とで異なる.しかし,既存データセットの多くは有声動作で構成され,無声動作の発話内容を推測する場合も有声動作データセットで訓練されたモデルが使用されるため,無声動作に対する予測精度が有声動作に対する予測精度を大きく下回る問題がある.有声動作と無声動作の違いを吸収し同等精度での予測を実現するため,唇の動きの最小単位であるvisemeに対し距離学習を行う枠組みを提案する.実験を通し,無声動作に対して3%以上精度が向上することを示す.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ