日本語文読唇向けデータセット構築のための口形素ベースコーパスの基礎検討

この論文をさがす

抄録

サイレント音声認識分野の1つである読唇は、口唇の動画像の動きを入力としており、近年の読唇研究は深層学習による画像認識が主である。 一般に深層学習には大量のデータが必要となるため、データセットが存在することが望ましい。既存の日本語文読唇向けのデータセットはいくつか存在するものの、音素を考慮した文によって構成されている。しかし読唇の性質上、口形素を考慮する方が自然かつ文の冗長性が排除され、構成内容に適すると考えた。 本研究では日本語文読唇向けのデータセット作成のために、口形素を基にしたコーパスを提案する。そして、日本語文読唇向けデータセットの構築に口形素を考慮することの有効性を検証する。

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ