雑音環境下音声認識のためのディープニューラルネットワークを用いた識別的区分線形変換

柏木 陽佑, 齋藤 大輔, 峯松 信明, 広瀬 啓吉

doi:10.14923/transinfj.2015pdp0009

本論文では，ディープニューラルネットワークを用いた区分的線形変換による統計的特徴量強調の拡張を提案する．本提案手法の目的は，雑音環境下音声認識を想定した特徴量領域における雑音除去を目的とし，観測された音声特徴量から対応する静音環境下での音声特徴量の再現を行うことである．その際，ニューラルネットワークを用いて，観測された雑音環境下の音声特徴量より，ガウス混合分布でクラスタリングされた静音環境下における音声特徴量の領域を識別する．その後，各領域に対応する線形変換をニューラルネットワークにより得られる事後確率を重みとして足し合わせることで静音環境下での音声特徴量を推定する．これによって，ニューラルネットワークのもつ高い識別性能と，従来の生成モデルに基づく特徴量マッピング手法のもつ高い汎化性能の融合を狙う．Aurora-2データベースを用いた連続音声認識実験により，提案手法は従来の区分線形変換法の一つであるStereo-based Piecewise LInear Compensation for Environments (SPLICE)と比較して，雑音が既知の条件では53.72%単語誤り率を削減することができた．更に，ニューラルネットワークを回帰モデルとして用いたオートエンコーダと比較した場合，雑音環境が未知な条件で26.96%の単語誤り率の削減が可能となった．

雑音環境下音声認識のためのディープニューラルネットワークを用いた識別的区分線形変換

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

雑音環境下音声認識のためのディープニューラルネットワークを用いた識別的区分線形変換

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について