確率的LSAを用いた日本語同音異義語誤りの検出・訂正

三品, 拓也, Takuya, Mishina

書誌事項

タイトル別名

Detection and Correction of Japanese Homophone Errors Using Probabilistic LSA
カクリツテキ LSA オモチイタニホンゴドウオンイギゴアヤマリノケンシュツテイセイ
自然言語

この論文をさがす

説明

本論文ではかな漢字変換誤り，特に同音異義語の選択誤りを対象とした日本語スペルチェックの方法を報告する．同音異義語誤りの判定には局所的な情報と大域的な情報の両者が必要であるが，本論文では大域的な情報をモデル化するために確率的LSAを用いることを提案・検討する．評価実験として，人為的に誤りを混入させたテストデータを用いた誤り検出・訂正実験を行った．局所的な情報のモデル化に従来からよく使われているngramモデルのみを利用した手法をベースラインとして比較した．ベースラインシステムでは再現率93.8%，適合率79.0%（F値85.8%）であった性能が，確率的LSAと組み合わせることにより再現率95.5%，適合率83.6%（F値89.2%）と改善された．

We report a method of a Japanese spell checker for homophone errors which often occur in Japanese input process using a kana-kanji conversion system. Error detection methods need both of local and global information around a target word. In this paper, we propose and investigate use of a probabilistic LSA for modeling global information. We will show experimental results of performance to detect and correct homophone errors which are generated randomly. We use a simple method based on ngram models as a baseline system. Ngram models are common for Japanese spell checkers to model local information. In the results, although detection rates of the baseline system are 93.8% in recall, 79.0% in precision (85.8% in F-measure), those of a combination system of an ngram model and a probabilistic LSA increase to 95.5% in recall, 83.6% in precision (89.2% in F-measure).

収録刊行物

情報処理学会論文誌

情報処理学会論文誌 45 (9), 2168-2176, 2004-09-15

東京 : 情報処理学会

詳細情報詳細情報について

CRID: 1050845762813858816

NII論文ID: 110002712264; 10020787121

NII書誌ID: AN00116647

ISSN: 18827764; 03875806

NDL書誌ID: 7093593

Web Site: https://ipsj.ixsq.nii.ac.jp/records/10820; http://id.ndl.go.jp/bib/7093593; https://ndlsearch.ndl.go.jp/books/R000000004-I7093593

本文言語コード: ja

資料種別: journal article

データソース種別

IRDB
NDLサーチ
CiNii Articles
KAKEN

書き出し

問題の指摘

確率的LSAを用いた日本語同音異義語誤りの検出・訂正

書誌事項

この論文をさがす

説明

収録刊行物

被引用文献 (2)*注記

参考文献 (19)*注記

関連プロジェクト

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

確率的LSAを用いた日本語同音異義語誤りの検出・訂正

書誌事項

この論文をさがす

説明

収録刊行物

被引用文献 (2)*注記

参考文献 (19)*注記

関連プロジェクト

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について