CiNii Researchの本公開について

平仮名N-gramによる平仮名列の誤り検出とその修正 (<特集>新しいシステムソフトウェア)

書誌事項

タイトル別名
  • Detection and Correction for Errors in Hiragana Sequences by a Hiragana Character N-gram (Special Issue on New System Software)
  • ヒラガナ N-gram ニ ヨル ヒラガナ レツ ノ アヤマリ ケンシュツ ト ソノ シュウセイ

この論文をさがす

抄録

type:論文(Article)

本論文では, 日本語の平仮名列で生じる書き誤りを検出, 修正する手法として平板名N-gramを提案する. また妥当な N の値についても考察する. 単語N-gramにより文書中の誤り検出, 修正が可能であるが, 大規模なN-gramは N が3の場合でさえ, 構築するのが困難である. また日本語の場合, 形態素解析が必要である点, N-gram表の検索コストが高い点などから, 手軽に利用できる手法ではない. ただし, 平仮名列中に生じる書き誤りに限定すれば, 平仮名文字に対するN-gramを構築することで, 上記の問題を回避し, 平仮名列中の誤り検出, 修正が可能となる. ここで, N を大きくとれば誤り検出の再現率は高くなるが, コーパスのスパース性から適合率が低くなる. つまり最適な N の設定にはコーパスの量と再現率への重みが影響する. 本論文では, 現実規模のコーパスとして新聞記事5年分を利用した. そこから平仮名 3〜6-gram を作成し, 各々を利用した場合の平仮名文字の挿入, 削除, 置換, 転置による誤りの検出とその修正の効果を調べた. 結果, 平仮名列中の誤り検出, 修正に対して平仮名N-gramが有効であること, および新聞記事5年分では 4-gram の利用が実用的であることを示した.

In this paper, we propose the hiragana character N-gram method to detect and correct errors in Japanese hiragana sequences. Further, we investigate about the proper N. It is known that the word N-gram method is effective to detect and correct errors in texts. However, it is difticult to construct word N-gram, even the case of N = 3. Moreover, in Japanese, this method requires the morphological analysis and high cost for searching an N word sequence from the word N-gram table. Thus, at the moment the word N-gram method for the text revision is not reasonable. However, if the target of the revision is limited to simple errors in Japanese hiragana sequences, by using the hiragana character N-gram we can detect and correct their errors without above problems. In this method, N-gram with the high N has the high recall, but the low precision because of the corpus sparseness problem. So, we must consider the corpus size and the weight of the recall to set the proper N. In experiments, we constructed 3, 4, 5 and 6-gram respectively from newspaper five years articles. By using their N-gram tables respectively, we examined the effectiveness of the revision for simple errors in hiragana sequences, which are caused by a single hiragana character insertion, deletion, substitution and reversal. We conclude that the hiragana character N-gram is effective to detect and correct errors in hiragana sequences, and N = 4 is proper realistically.

収録刊行物

被引用文献 (0)

もっと見る

参考文献 (0)

もっと見る

関連論文

もっと見る

関連研究データ

もっと見る

関連図書・雑誌

もっと見る

関連博士論文

もっと見る

関連プロジェクト

もっと見る

関連その他成果物

もっと見る

詳細情報

ページトップへ