歌声の統計的モデル化とビタビ探索を用いた多重奏中のボーカルパートに対する音高推定手法

書誌事項

タイトル別名
  • ウタゴエ ノ トウケイテキ モデルカ ト ビタビ タンサク オ モチイタ タジュウソウ チュウ ノ ボーカルパート ニ タイスル オト コウスイテイ シュホウ
  • An F0 Estimation Method of Vocal Part in Polyphonic Music by Using Statistical Modelling of Singing Voice and Viterbi Search
  • 音楽情報

この論文をさがす

抄録

本論文では,混合音中のボーカルパートの基本周波数(F0)を推定する手法について述べる.ボーカルパートは多くのジャンルの音楽で主要な役割を果たしており,ボーカルパートのF0推定は様々な用途に有用である.我々は,確率的定式化により,ボーカルパートのF0推定の問題を音源認識問題(つまり歌声かどうかを認識する問題)と多重ピッチ解析問題に帰着させる.さらに,音源認識問題を歌声・非歌声を表現する混合ガウス分布(GMM)を用いて歌声確率を計算することで実現し,多重ピッチ解析問題を既存手法を拡張することで実現する.最後に,これらの確率的問題を最大化するF0の系列をビタビ探索によって推定する.評価実験により,歌声区間に対するF0推定精度が76.2%から81.1%に向上し,誤り率を20.5%削減したことを確認した.

This paper describes a method for estimating Fundamental Frequency (F0) of vocal part from polyphonic audio signals. Because melody is performed (sung) by a vocalist in many musical pieces, the estimation of F0s of the vocal part is useful for many applications. We decompose the problem of estimating the vocal F0 into the multiple-F0 estimation problem and the sound source recognition (i.e. estimating a sound source is vocal or not) problem. To deal with the sound source recognition problem, we develop a method of evaluating the vocal probability by using vocal and non-vocal Gaussian mixture models (GMMs). We deal with the multiple-F0 estimation problem by extending the existing method. Finally, we estimate an F0 trajectory that satisfies these stochastic problems by using the Viterbi search. Experimental results show that our method improves estimation accuracy from 76.2% to 81.1%, which is 20.5% reduction of misestimation.

収録刊行物

被引用文献 (2)*注記

もっと見る

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ