日本語文読唇向けデータセット構築のための口形素ベースコーパスの基礎検討
この論文をさがす
抄録
サイレント音声認識分野の1つである読唇は、口唇の動画像の動きを入力としており、近年の読唇研究は深層学習による画像認識が主である。 一般に深層学習には大量のデータが必要となるため、データセットが存在することが望ましい。既存の日本語文読唇向けのデータセットはいくつか存在するものの、音素を考慮した文によって構成されている。しかし読唇の性質上、口形素を考慮する方が自然かつ文の冗長性が排除され、構成内容に適すると考えた。 本研究では日本語文読唇向けのデータセット作成のために、口形素を基にしたコーパスを提案する。そして、日本語文読唇向けデータセットの構築に口形素を考慮することの有効性を検証する。
収録刊行物
-
- 第85回全国大会講演論文集
-
第85回全国大会講演論文集 2023 (1), 793-794, 2023-02-16
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1050016803516936576
-
- NII書誌ID
- AN00349328
-
- Web Site
- http://id.nii.ac.jp/1001/00230072/
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB