speaker diarization の精度低下要因の考察
Description
近年,動画コンテンツの需要が高まり,字幕生成技術の重要性が増している.自動字幕生成において,複数話者が含まれる音声に対する字幕生成において必要となる speaker diarization の精度が低下し,話者アノテーションの品質が低下すると,字幕の品質が損なわれる問題が生じる.本研究では,話者アノテーションの品質の品質向上を目指し,speaker diarization 処理の後にクラウドソーシングを組み合わせる手法を提案する.本手法では,speaker diarization の誤ラベリングが発生しやすい時刻を音声中から自動で判定し,該当部分をクラウドソーシングによって修正することで,全体の話者アノテーションの精度向上を目指す.本稿では,特に発話の重なり,発話の長さ,音声エネルギーの変化,感情分析を基に,誤ラベリング発生時刻の予測の可能性を検証した.
Journal
-
- 第32回マルチメディア通信と分散処理ワークショップ論文集
-
第32回マルチメディア通信と分散処理ワークショップ論文集 212-216, 2024-10-23
情報処理学会
- Tweet
Details 詳細情報について
-
- CRID
- 1050301994524974208
-
- Text Lang
- ja
-
- Article Type
- conference paper
-
- Data Source
-
- IRDB