Automatic Comma Insertion in Lecture Transcripts Based on Multiple Annotations
Bibliographic Information
- Other Title
-
- 講演に対する読点の複数アノテーションに基づく自動挿入
Search this article
Description
音声認識結果の可読性と有用性を高めるためには,句読点を自動的に挿入することが不可欠である.本稿では,単語・係り受け・ポーズの情報を素性とする条件付き確率場 (Conditional Random Fields, CRF)に基づく読点の自動挿入について述べる.読点の挿入箇所は人により大きく異なるため,我々は複数のアノテータによる句読点ラベルを利用して,各アノテータの挿入傾向をモデル化した.そして,これらを投票と補間の枠組みにより組み合わせる.日本語話し言葉コーパス (CSJ) の講演を用いた評価実験では,個々の句読点モデルを組み合わせることで,それぞれのアノテータの読点と,全てのアノテータに共通する読点について高い挿入精度が得られることが示された.To enhance readability and usability of speech recognition results, automatic punctuation is an essential process. In this paper, we address automatic comma prediction based on conditional random fields (CRF) using lexical, syntactic and pause information. Since there is large disagreement in comma insertion between humans, we model individual tendencies of punctuation using annotations given by multiple annotators, and combine these models by voting and interpolation frameworks. Experimental evaluations using lectures of the CSJ demonstrated that the combination of individual punctuation models achieves higher prediction accuracy for commas agreed by all annotators and those given by individual annotators.
Journal
-
- 情処学研報. SLP, 音声言語情報処理
-
情処学研報. SLP, 音声言語情報処理 2011 (4), 1-6, 2011
- Tweet
Details 詳細情報について
-
- CRID
- 1571980076939978240
-
- NII Article ID
- 110008584131
-
- NII Book ID
- AN10442647
-
- Text Lang
- ja
-
- Data Source
-
- CiNii Articles