球面調和関数に基づく距離別分離音を用いた深層学習による近接音声分離
Search this article
Description
物理モデルと深層学習を組み合わせた新たな近接/遠方音声分離手法を提案する。一般的に、深層学習による音源分離ではディープニューラルネットワーク(DNN)を用いて時間-周波数(T-F)マスクを推定する。T-Fマスクを正確に推定するには真のT-Fマスクと強い相互関係を持つ音響特徴量が必要になる。一般的には各音声の声質や音韻の連続性の違いからマスクを推定する方法がとられている。しかし、似た声の話者音声に対しては分離性能が低下する。本論文では球面調和関数に基づく近接音分離法により、低周波数領域の近接/遠方音を推定し、これを音響特徴量に加える。これにより似た声質の複数話者音声分離の性能を向上し、なおかつ球面調和関数に基づく手法では扱えなかった高域成分の分離を実現した。提案手法は球面調和関数に基づく手法に比べて分離音源の信号対歪率が6–8dB改善された。
Journal
-
- 第81回全国大会講演論文集
-
第81回全国大会講演論文集 2019 (1), 557-558, 2019-02-28
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1050574047071270272
-
- NII Article ID
- 170000179792
-
- NII Book ID
- AN00349328
-
- Web Site
- http://id.nii.ac.jp/1001/00196912/
-
- Text Lang
- ja
-
- Article Type
- conference paper
-
- Data Source
-
- IRDB
- CiNii Articles