複数音像の再現のためのDiffusionモデルを用いたバイノーラル音声変換

北村, 健太郎, 伊藤, 克亘

コンサートホールでの録音は会場上部に吊り下げられているマイクでされている。その録音機は HRTF(頭部伝達関数) を意識された録音がされておらず会場の臨場感を録音することができない。バイノーラル録音できる機材は市販されているものの、値段が高く手に届かないことやバイノーラルマイクの見た目がコンサートホールの景観を損なうなどの理由で使われていない。その問題を解決するために、研究では空間音響と HRTFを音源と音源の位置を用いて学習したモデルを使い、通常のステレオ音源をバイノーラル音源へと変換する。この研究により音楽配信サービスなどのストリーミング音声の臨場感の向上や、バイノーラルオーディオ作成のコストが格段に減ることを期待する。

複数音像の再現のためのDiffusionモデルを用いたバイノーラル音声変換

この論文をさがす

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

複数音像の再現のためのDiffusionモデルを用いたバイノーラル音声変換

この論文をさがす

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について