Rahmonicとメルケプストラムを用いた音響モデルに基づく騒音環境下叫び声検出の性能評価

HANDLE Web Site Web Site Web Site オープンアクセス

書誌事項

タイトル別名
  • Performance evaluation of noisy shouted speech detection based on acoustic model with rahmonic and mel-frequency cepstrum coefficients
  • ポスター講演 Rahmonicとメルケプストラムを用いた音響モデルに基づく騒音環境下叫び声検出の性能評価
  • ポスター コウエン Rahmonic ト メルケプストラム オ モチイタ オンキョウ モデル ニ モトズク ソウオン カンキョウ カ サケビ コエ ケンシュツ ノ セイノウ ヒョウカ

この論文をさがす

抄録

本稿では, 騒音環境下におけるRahmonicとメルケプストラム(Mel-Frequency Cepstrum Coefficients: MFCC)を用いた叫び声検出手法について述べる. MFCCは人間の聴覚特性を考慮したケプストラム係数であり, 音韻を特定するための声道特徴量を示している. またRahmonicは, 基本周波数の低調波成分であり, 人間の声帯運動に関わる特徴を表現している. これまで, 我々は大量の平静音声と叫び声から抽出したMFCCとRahmonicに基づいて構築したGaussian Mixture Model(GMM)を用いて叫び声を検出していた. 本稿では, この音響モデルをHidden Markov Model(HMM)やDeep Neural Network(DNN)に拡張して騒音環境下での叫び声検出性能を評価した. 評価実験の結果, 叫び声の発声機構(声道特性と声帯特性)をMFCCとRahmonicを用いて効率よく表現できることが確認できた. 加えて, ほとんどの騒音環境において音響モデルとしてDNNを用いることでGMMやHMMよりも高い叫び声検出性能を達成できた.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ