スペクトログラムテンプレートの学習に基づく解釈可能な深層クラスタリング法

渡邊 千紘, 亀岡 弘和

doi:10.11517/pjsai.jsai2020.0_2q1gs1001

<p>複数の話者による混合音声信号のスペクトログラムから，各時間周波数点における主要な話者ラベルを推定する音源分離の問題において，近年深層クラスタリング法と呼ばれる手法の有効性が示されている．深層クラスタリング法は，まずニューラルネットを用いて各時間周波数点の低次元埋め込み表現を学習し，得られた埋め込みベクトルのクラスタリングにより音源分離を行う方法であり，任意の話者数の音声信号に対し高精度な分離が可能である一方，埋め込み表現の意味解釈が困難であり，未知音源や学習データが限定的な音源に対応可能なより汎化性能の高いモデルを構築するための見通しが立てづらいという課題が存在する．そこで，本研究では，高精度かつ解釈可能な音源分離手法を構築することを目的として，新たなニューラルネットワークモデルを提案する．提案モデルにおける各時間周波数点の音源分離のメカニズムは，非負の要素を持つスペクトログラムテンプレートの重み付き和として解釈可能であり，さらに学習された各テンプレートは音声信号の調波構造を捉えたものになることが実験的に示された．</p>

スペクトログラムテンプレートの学習に基づく解釈可能な深層クラスタリング法

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

スペクトログラムテンプレートの学習に基づく解釈可能な深層クラスタリング法

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について