日本語文読唇向けデータセット構築のための口形素ベースコーパスの基礎検討

北村, 亮太, 寺澤, 卓也

サイレント音声認識分野の1つである読唇は、口唇の動画像の動きを入力としており、近年の読唇研究は深層学習による画像認識が主である。　一般に深層学習には大量のデータが必要となるため、データセットが存在することが望ましい。既存の日本語文読唇向けのデータセットはいくつか存在するものの、音素を考慮した文によって構成されている。しかし読唇の性質上、口形素を考慮する方が自然かつ文の冗長性が排除され、構成内容に適すると考えた。　本研究では日本語文読唇向けのデータセット作成のために、口形素を基にしたコーパスを提案する。そして、日本語文読唇向けデータセットの構築に口形素を考慮することの有効性を検証する。

日本語文読唇向けデータセット構築のための口形素ベースコーパスの基礎検討

この論文をさがす

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

日本語文読唇向けデータセット構築のための口形素ベースコーパスの基礎検討

この論文をさがす

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について