唇動画像からの音声生成法における入力特徴量の単純化に関する検討

DOI

書誌事項

タイトル別名
  • A Study on Simplification of Input Features in Speech Generation Method from Lip Video Images

抄録

<p>近年,唇動画像からの音声生成を行う研究は数多く行われている.従来の手法ではCNN やRNN を用いたDNN モデルで音声波形の生成を行っているものが多い.その場合,入力となる唇動画像には肌の色やホクロといった話者固有の特徴を学んでしまい,学習話者以外の話者のデータを入力とする場合には性能が低下してしまう.そこで,学習話者以外の話者においても高い性能で音声波形を生成するために,入力特徴量から話者固有の特徴を取り除く手法を提案した.本稿では提案した入力特徴量を用いて音声波形を生成し,それらを客観評価値STOI を用いて評価した.結果として,提案した手法では唇動画像を入力した場合に比べ性能は劣化したが,話者の違いによる劣化を抑えることができる効果を確認した.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390580626907798016
  • DOI
    10.60274/asjsc.sc-2023-12
  • ISSN
    27582744
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用可

問題の指摘

ページトップへ