モーラを単位とした基本周波数パターンの確率モデル化とそれによるアクセント句境界の検出

書誌事項

タイトル別名
  • モーラ オ タンイ ト シタ キホン シュウハスウ パターン ノ カクリツ モデルカ ト ソレニ ヨル アクセントク キョウカイ ノ ケンシュツ
  • A Statistical Modeling of Fundamental Frequency Contours in Moraic Unit and Its Use for the Detection of Prosodic Word Boundaries
  • 韻律処理

この論文をさがす

説明

アクセントやイントネーションといった音声の韻律的特徴から音声認識に有効な情報を高い精度で抽出するためには 1)特徴量の変動に対処するため韻律を確率モデルで表現することや 2)韻律的特徴のみならず音韻の情報をあわせて利用することが必要である. そこで本論文では 日本語連続音声の基本周波数(F_0)パターンに対し 音声認識プロセスで得られるモーラ境界情報を利用し モーラを単位としてF_0パターンを確率モデル化する手法を提案する. 2名の男性話者が 各々500文を発声したデータベースを用い その50文を実験用データ 450文を学習用データとして 本モデルを用いたアクセント句境界検出とアクセント型認識の実験を行った. データベース付属の音素ラベルから作成した正解モーラ境界を用いたとき 特定話者で検出率約77% 挿入誤り率約15% 2話者間で検出率約76% 挿入誤り率約18%を得た. また 比較のため モーラ境界を簡単な音声認識によって得た場合と 音韻境界情報を利用せずにフレーム単位でモデル化した場合の実験も行った. アクセント型の認識実験結果と併せ 得られた結果は 提案モデルの有効性を示すものであった.

In order to extract effective information for speech recognition with high accuracy from prosodic features of speech, such as accent and intonation, it is necessary to statistically model the prosody to cope with its feature variations, and to utilize segmental features to some extent. From this viewpoint, in this paper, we propose a statistical modeling of fundamental frequency contours of Japanese continuous speech in mora unit, where the mora boundary information is given during the speech recognition process. Experiments are conducted for the detection of prosodic word boundaries and recognition of accent types. Utterances of 500 sentences form each of two male speakers are used; 50 for the testing and the rest for the training. When mora boundaries obtained from the phone labels in the database are used, around 77% of correct boundary detection rates are obtained with insertion error rates around 15% for speaker dependent cases. For speaker independent cases, these rates are around 76% and around 18%, respectively. For comparison, two boundary detection experiments are further conducted; one using mora boundaries obtained from the speech recognition process instead of those obtained from the database, the other based on the frame-based modeling using no segmental boundary information. These results, together with similar results for accent type recognition indicate the validity of the proposed modeling.

収録刊行物

被引用文献 (11)*注記

もっと見る

参考文献 (16)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ