発話速度に変化があったと感じながらも不自然ではない持続時間の範囲とその範囲内で変化する評価とは : 多段階に持続時間の異なる合成音声を用いた音声知覚と推論の検討

書誌事項

タイトル別名
  • ハツワ ソクド ニ ヘンカ ガ アッタ ト カンジ ナガラ モ フシゼン デワ ナイ ジゾク ジカン ノ ハンイ ト ソノ ハンイ ナイ デ ヘンカ スル ヒョウカ トワ : タダンカイ ニ ジゾク ジカン ノ コトナル ゴウセイ オンセイ オ モチイタ オンセイ チカク ト スイロン ノ ケントウ
  • Exploring a range of duration that feels like there has been a change in speaking rate but is not unnatural and changes in evaluation within this range : Investigation of speech perception and inference using synthetic speech with multi-step duration

この論文をさがす

抄録

type:Article

これまで持続時間を変化させた合成音声を用いた多くの実験研究は,実験デザインの関係上,少数の水準を用い,音声知覚や推論の検討を行っている。その一方で,人が発話速度に変化があったと感じながらも不自然ではない持続時間の範囲については,十分に検討されていない。本研究の目的は,発話速度に変化があったと感じながらも不自然ではない持続時間の範囲を知り,その持続時間の範囲の中で,音声知覚と推論の議論を行うことである。目的達成のために,「こんにちは,初めまして,よろしくお願いします。」と発話している音声の持続時間を段階的に19水準の変更を加えた音声を作成した。そして作成した音声を参加者に聞かせ,音声の速さ感・高さ感・自然性の知覚と,話者の年齢と悠長さの推論を尋ねた。その結果,10.23モーラ/sから5.28モーラ/sの間では,人が発話速度の変化があったと感じながらも,音声の自然性が保たれる音声の合成範囲となることが明らかになった。また,その持続時間の範囲の中で,悠長さの推論が有意に変化することが認められた。本研究で示された持続時間の指標を基にすれば,本研究では扱うことのできなかった音声知覚や推論に対しても,引き続き同様の検討をすることができる。

Many previous studies that used synthetic speech stimuli have artificially manipulated duration to investigate speech perception and speaker inference. These studies have often run experiments with a small number of duration conditions, e.g. slow, normal, fast, because of other constraints. However, the choice of duration conditions is often arbitrary; range of duration that feels like there has been a change in speaking rate while still sounding natural has not been directly investigated. The purpose of the present study is to determine the range of duration in synthesized speech that is wide enough yet natural, and to explore speech perception and speaker inference within such a range. To achieve this goal, duration of recordings of a typical first-time greeting in Japanese was manipulated in 19 steps. Participants listened to the stimuli and evaluated the perceived speed, pitch, and naturalness of the utterance, along with inference of age and voice impression. Results revealed that a range of duration that feels like there has been a change in speaking rate but is not unnatural was 63.51% - 128.45% of the original rate (10.23 – 5.28 moras per second). Within this range of duration, inference of voice impression significantly changed. These results provide an empirical basis for selecting appropriate ranges of duration variation for investigating aspects of speech perception and speaker inference.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ