speaker diarization の精度低下要因の考察

Description

近年,動画コンテンツの需要が高まり,字幕生成技術の重要性が増している.自動字幕生成において,複数話者が含まれる音声に対する字幕生成において必要となる speaker diarization の精度が低下し,話者アノテーションの品質が低下すると,字幕の品質が損なわれる問題が生じる.本研究では,話者アノテーションの品質の品質向上を目指し,speaker diarization 処理の後にクラウドソーシングを組み合わせる手法を提案する.本手法では,speaker diarization の誤ラベリングが発生しやすい時刻を音声中から自動で判定し,該当部分をクラウドソーシングによって修正することで,全体の話者アノテーションの精度向上を目指す.本稿では,特に発話の重なり,発話の長さ,音声エネルギーの変化,感情分析を基に,誤ラベリング発生時刻の予測の可能性を検証した.

Journal

Details 詳細情報について

Report a problem

Back to top