双方向Transformer言語モデルによる音声認識仮説のリスコアリング

Search this article

Description

音声認識において、言語モデルを用いてN-best仮説をリスコアリングすることで音声認識性能が改善することが報告されている。近年、自然言語処理の分野では、前後の文脈から単語を補完して推定することができる双方向Transformer言語モデルが様々なタスクにおいて効果を示している。本稿では、双方向Transformer言語モデルを音声認識のリスコアリング手法として適用した。また、この手法を従来行われるN-gram言語モデルやRNN言語モデルによるリスコアリングと比較した。さらに、音声認識仮説の誤り傾向を考慮した双方向Transformer言語モデルの識別学習を提案し、その結果を比較する。

Journal

Details 詳細情報について

Report a problem

Back to top