wav2vec 2.0の事前学習モデルを用いた咽喉マイク音声認識

Search this article

Description

咽喉マイク音声は外部雑音の影響を受けにくいため、多人数会話や高雑音環境下での音声認識に適している。しかし接話マイク音声と比較して音響特徴量が異なり、一般的な音声認識モデルで咽喉マイク音声を認識することは困難である。このことから咽喉マイク音声に適した音声認識モデルを作成する必要があるが、十分な精度の音声認識モデルを構築するために必要な大規模な文字起こし咽喉マイク音声データベースが存在しない。そこで本稿では、少量のラベル付きデータでも十分な精度の音声認識モデルを作成することができる手法として提案されたwav2vec 2.0に着目し、wav2vec2.0の事前学習モデルに対して咽喉マイク音声でファインチューニングを行うことによって、咽喉マイク音声のデータ量不足という問題点を解決することが可能か検討した。

Journal

Details 詳細情報について

Report a problem

Back to top