スペクトログラムテンプレートの学習に基づく解釈可能な深層クラスタリング法

DOI

書誌事項

タイトル別名
  • Interpretable Deep Clustering using Learnable Spectrogram Templates

抄録

<p>複数の話者による混合音声信号のスペクトログラムから,各時間周波数点における主要な話者ラベルを推定する音源分離の問題において,近年深層クラスタリング法と呼ばれる手法の有効性が示されている.深層クラスタリング法は,まずニューラルネットを用いて各時間周波数点の低次元埋め込み表現を学習し,得られた埋め込みベクトルのクラスタリングにより音源分離を行う方法であり,任意の話者数の音声信号に対し高精度な分離が可能である一方,埋め込み表現の意味解釈が困難であり,未知音源や学習データが限定的な音源に対応可能なより汎化性能の高いモデルを構築するための見通しが立てづらいという課題が存在する.そこで,本研究では,高精度かつ解釈可能な音源分離手法を構築することを目的として,新たなニューラルネットワークモデルを提案する.提案モデルにおける各時間周波数点の音源分離のメカニズムは,非負の要素を持つスペクトログラムテンプレートの重み付き和として解釈可能であり,さらに学習された各テンプレートは音声信号の調波構造を捉えたものになることが実験的に示された.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390566775142851840
  • NII論文ID
    130007856990
  • DOI
    10.11517/pjsai.jsai2020.0_2q1gs1001
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ