天井設置型の複数マイクと話者の位置情報を用いた発話方向推定手法

抄録

屋内における人の位置と顔向きを推定するためにカメラや距離センサを用いた手法が研究されている.しかし,これらの技術は利用者へのプライバシーに関する心理的負荷,障害物・人による死角,高コスト化などの問題を抱えている.そこで本研究では,赤外線センサを用いた位置情報の取得を前提として,天井に設置した複数マイクの音声を用いた発話方向推定手法を提案する.まず発話方向による音声信号の音響パワーの違いに注目して,フーリエ変換を用いて特定周波数帯における音響パワー比を算出した.そしてパワーフレームのサイズで平均と分散を取り,8 次元ベクトルとして SVM (Support Vector Machine) に与え,八方位にラベリングした発話方向の推定を行った.実際に,86.4㎡ の屋内で約 56 分の複数の被験者の音声データを収集し,1.2 秒の音声信号に対して最大 84% で発話方向推定ができることを確認した.さらに人による学習データ収集の負担を軽減し,一定環境でのデータ収集を可能とするため,声帯模型を用いた擬似発話音声データの収集を行い,検証を行った.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ