N-gram Language Model with Multi-Word Expressions Using Corpus of Spontaneous Japanese

高橋 伸弥, 森元 逞

doi:10.11527/jceeek.2012.0_83

【Updated on May 12, 2025】 Integration of CiNii Dissertations and CiNii Books into CiNii Research
Trial version of CiNii Research Knowledge Graph Search feature is available on CiNii Labs
【Updated on June 30, 2025】Suspension and deletion of data provided by Nikkei BP
Regarding the recording of “Research Data” and “Evidence Data”

N-gram Language Model with Multi-Word Expressions Using Corpus of Spontaneous Japanese

DOI

高橋伸弥

福岡大
森元逞

福岡大

Bibliographic Information

Other Title

日本語話し言葉コーパスを用いた連語Ngram音声認識の検討

Description

一般に音声認識では，2単語もしくは3単語の連接確率を定義した統計的言語モデルが用いられている．しかし実際に使われる日本語表現においては，定型的な文末表現や熟語表現，慣用句など4単語以上の単語が連接した表現が数多く現れる．これらの確率を学習することは，膨大な学習コーパスが必要なこと，また音声認識処理の計算量が増大することなどから，実用的ではないとされてきた．そこで本研究では，日本語話し言葉コーパスに現れる表現のうち，高頻度かつ定型的な複単語表現（連語）を，Google日本語Ngram統計言語資料を用いて抽出し，それらを統計的言語モデルに組み込む方法について検討する．

Journal

Record of Joint Conference of Electrical and Electronics Engineers in Kyushu

Record of Joint Conference of Electrical and Electronics Engineers in Kyushu 2012 (0), 83-83, 2012

Committee of Joint Conference of Electrical, Electronics and Information Engineers in Kyushu

Details 詳細情報について

CRID

1390282680641052928
NII Article ID

130005480268
DOI

10.11527/jceeek.2012.0_83
Data Source
- JaLC
- CiNii Articles
Abstract License Flag
Disallowed

N-gram Language Model with Multi-Word Expressions Using Corpus of Spontaneous Japanese

Bibliographic Information

Description

Journal

Details 詳細情報について

Export

Report a problem