クロスリンガル音声合成のための共有決定木コンテクストクラスタリングを用いた話者適応

長濱 大樹, 能勢 隆, 郡山 知樹, 小林 隆夫

doi:10.14923/transinfj.2016pdp0020

書誌事項

タイトル別名

Speaker Adaptation Using Shared Context Clustering for Cross-lingual Speech Synthesis

説明

本論文では，隠れマルコフモデル（HMM）に基づくクロスリンガル話者適応を用いた音声合成において新たな手法を提案し，従来手法との比較評価を通して提案手法の有効性の検討を行っている．HMMに基づくクロスリンガル話者適応では，入力言語の平均声モデルと目標話者の適応データ間で求めた変換行列を出力言語の平均声モデルに適用するために二つの言語の平均声モデル間に対応付けを行う必要がある．これまでに提案されている状態マッピングを用いた手法では，二つの平均声モデルのリーフノードの分布パラメータの類似度を用いて対応付けを行っており，対応関係にコンテクストを反映することができず話者適応の性能が低下していた．そこで，本論文では二つの言語の平均声モデルの一部で決定木を共有することで，音韻・韻律に関するコンテクスト情報を考慮して状態の対応付けを行う手法を提案する．従来手法と提案手法を用いて客観及び主観評価実験を行い，提案手法が従来手法に比べ話者類似性を維持したまま自然性が高い音声を合成できることを示す．

収録刊行物

電子情報通信学会論文誌D 情報・システム

電子情報通信学会論文誌D 情報・システム J100-D (3), 385-393, 2017-03-01

The Institute of Electronics, Information and Communication Engineers

キーワード

詳細情報詳細情報について

CRID: 1390565162127437312

DOI: 10.14923/transinfj.2016pdp0020

ISSN: 18810225; 18804535

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘