Deep Neural Networkに基づく日本語音声認識の基礎評価

神田直之, 武田龍, 大淵康成

本稿では Deep Neural Network (DNN) を用いた日本語音声認識に関する検討結果を述べる.DNN とは多数の階層を持った人工ニューラルネットワークモデルである.近年,多層のネットワークでも効率的に最適化できる手法が発表され,各種の認識タスクで従来法を上回る性能を示したことから,再び大きな注目を集めている.音声認識分野においても DNN に基づく音響モデルに関して既に多数の研究が行われ改善が進む一方で,日本語のテストデータを用いた検討結果は限られた学習データを用いた小規模な実験に限られていた.本稿では日本語話し言葉コーパス (CSJ) をテストセットとし DNN に基づく音響モデルに関する各種の評価を行った結果について述べる.特に 270 時間の学習データを用いた評価において,音素誤り最小化 (MPE) 学習された Gaussian Mixture Model に基づく音響モデルと比較して最大 28.2 %の認識誤りが削減され,DNN の認識性能の高さを日本語においても確認した.また DNN に基づく音響モデルにおいて,学習用の言語リソースが限られた状況でデータを擬似的に増加させる手法について新たに検討を行い,認識精度がさらに向上することを確認した.

Deep Neural Networkに基づく日本語音声認識の基礎評価

Search this article

Description

Journal

Keywords

Details 詳細情報について

Export

Report a problem