分散音声認識における実時間周波数特性正規化手法

書誌事項

タイトル別名
  • ブンサン オンセイ ニンシキ ニ オケル ジツジカン シュウハスウ トクセイ セイキカ シュホウ
  • Real-time Frequency Characteristic Normalization for Distributed Speech Recognition
  • 音声言語

この論文をさがす

抄録

本論文では,分散音声認識(DSR: Distributed Speech Recognition)における入力系の周波数特性の差異による認識性能劣化を抑制する周波数特性正規化手法として,複数参照ケプストラムを用いた実時間周波数特性正規化手法を提案する.提案手法は,複数の参照ケプストラムを使用し,周波数特性の正規化を行うバイアスをフレーム同期で計算し,実時間で入力系の周波数特性を正規化する手法である.一般に,DSR で用いられるクライアントではメモリ量,計算量の制限があるため,提案手法ではこれらの増加量を低減させるため,参照ケプストラムをDSR フロントエンドの特徴パラメータ圧縮部で使用されるVQ コードブックの組合せで表現した.ETSI Advanced DSR フロントエンドを用いた日本音響学会新聞記事読み上げ音声コーパスの音声認識実験より,提案手法は,ETSI Advanced DSR フロントエンドにおけるBlind Equalization と比較し,周波数特性の差異による音声認識精度劣化の抑制に有効であることを確認した.特に,提案手法はMIRS フィルタ条件下でETSI Advanced DSR フロントエンド(Blind Equalization)の単語誤り率を10.8%削減することが可能であった.

In this paper, we propose a real-time blind equalization method with multiple references for ETSI standard Distributed Speech Recognition (DSR) front-end. The proposed method compensates for acoustic mismatch caused by input devices. In ETSI advanced DSR frontend, the blind equalization method is introduced to compensate for acoustic mismatch. This method estimates the bias, which compensates for the mismatch, using one reference vector. If the input speech is short or contains many similar phonemes, there is concern that this method might not estimate the accurate bias. On the other hand, the proposed method estimates the bias, which is calculated on frame by frame, using multiple references instead of one reference. Using multiple references, the proposed method estimates the bias more accurately. In addition, we represent the references by combining the VQ centroids used in the data compression process of ETSI standard DSR front-end. This limits increases in memory size and computation costs on the front-end. Experimental results on a Japanese newspaper dictation task indicate that the proposed method gave better performance under acoustic mismatched conditions than the conventional blind equalization method. Especially, we observed a 10.8% improvement in the error rate under the MIRS filter condition.

収録刊行物

参考文献 (13)*注記

もっと見る

関連プロジェクト

もっと見る

キーワード

詳細情報

問題の指摘

ページトップへ