合成音声への自然なポーズ挿入のための音声の自然性に影響を与えるポーズ位置に関する要因の分析と評価
書誌事項
- タイトル別名
-
- Analysis and Evaluation of Factors Relating Pause Location for Natural Text-to-speech Synthesis
この論文をさがす
説明
本研究では,テキスト音声合成における自然なポーズ挿入の実現のために,テキストから抽出可能なポーズ位置に関する素性と音声の自然性との関係の分析と評価を行った.まず,ポーズ位置およびテキストが異なる合成音声を用いた主観評価実験を実施し,ポーズ位置の自然性の観点で主観評価値を収集した.次に,ポーズ位置に関する素性をポーズ句の長さと係り受け構造の観点から複数設計し,重回帰分析および判別分析により主観評価値との関係について分析を行った.分析の結果,長さが極端に短いポーズ句の存在に関する素性等13種類の素性が,自然性に対する影響が大きいことが確認できた.最後に,提案する素性のポーズ位置決定における有効性を評価するため,従来の素性に基づくポーズ位置決定手法と,主観評価値と素性との関係に基づくポーズ位置の自然性の評価器とを組み合わせた枠組みでポーズ位置の主観評価実験を行い,主観評価値の向上が確認できた.
This paper reports a study in which the relationship between various pause location-related features and speech naturalness was analyzed to achieve natural pause insertion for text-to-speech synthesis. First, a subjective experiment was conducted using speech samples with different pause locations and text contents to collect naturalness scores regarding pause location. Next, multiple regression and discriminant analysis were carried out. The analysis results confirmed that 13 features have a significant impact on speech naturalness. To confirm the features' effectiveness for pause location prediction, a speech naturalness evaluator was constructed that uses the relationship between the obtained naturalness scores and features. The results of a subjective evaluation experiment performed with the evaluator confirmed that its use resulted in improved evaluation scores.
収録刊行物
-
- 情報処理学会論文誌
-
情報処理学会論文誌 56 (3), 993-1002, 2015-03-15
一般社団法人情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050001337905733760
-
- NII論文ID
- 110009884093
-
- NII書誌ID
- AN00116647
-
- ISSN
- 18827764
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- IRDB
- CiNii Articles