x-vectorを用いた日本語電話音声に対するテキスト独立型話者照合システムの検討

DOI
  • 多谷 邦彦
    京都府警察本部刑事部科学捜査研究所
  • サクティ サクリアニ
    奈良先端科学技術大学院大学先端科学技術研究科情報科学領域 北陸先端科学技術大学院大学先端科学技術研究科情報科学系人間情報学研究領域
  • 藤𠩤 修治
    京都府警察本部刑事部科学捜査研究所
  • 中村 哲
    奈良先端科学技術大学院大学先端科学技術研究科情報科学領域

書誌事項

タイトル別名
  • Examination of text-independent speaker identification system for Japanese telephone speech using x-vector

抄録

<p>本論文では,電話を通して録音された日本語発話音声を用いたテキスト独立型話者照合実験の結果を報告する。法科学において,電話を通じて録音された音声による話者照合技術は有効なものであり,効果的に活用するためには,電話録音の影響,雑音による影響,年齢や性別等の話者特性,更に,近年の生活環境の変化により身近なものとなっているマスクの影響を分析することが重要である。近年,DNNを用いた話者照合手法が報告されていることから,この技術を用いた話者照合実験を行い,録音条件や話者特性が照合結果に及ぼす影響を分析した。電話録音した113人の音声の照合実験ではEER=0.28%であった。また,テスト音声に付加する雑音がSNR=15dB以上であればEER=2%以下,発話時間が5秒以上であればEER=1.5%以下であった。更に,マスク着用や年齢及び性別の話者特性は話者照合に影響を与えないことが分かった。</p>

収録刊行物

  • 日本音響学会誌

    日本音響学会誌 79 (1), 18-25, 2022-12-25

    一般社団法人 日本音響学会

詳細情報 詳細情報について

  • CRID
    1390576435496255488
  • DOI
    10.20697/jasj.79.1_18
  • ISSN
    24322040
    03694232
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ