単語頻度の再推定による自己組織化単語分割

永田 昌明

書誌事項

タイトル別名

A Self-organizing Japanese Word Segmenter using Heuristic Word Identification and Re-estimation

説明

本稿では, 小さな単語リストと大量のプレーンテキストから日本語の単語分割プログラムを作成する方法を提案する. 本手法は, 単語単位の統計的言語モデル, 初期値推定手続き, 再推定手続きから構成される. まず文字種に関するヒューリスティクスを用いて訓練テキストから抽出した単語候補を単語リストに加え, 単語リスト中の単語と最長一致する訓練テキスト中の文字列の頻度から単語頻度の初期値を推定する. 次に単語頻度に基づく統計的言語モデルを用いて訓練テキストを単語分割し, 単語リストと単語頻度を再推定する. 1719個の単語と390万文字のテキストに対して本手法を用いて単語分割プログラムを訓練したところ, 単語分割精度は再現率86.3%, 適合率82.5%であった.

収録刊行物

情報処理学会研究報告. NL,自然言語処理研究会報告

情報処理学会研究報告. NL,自然言語処理研究会報告 121 9-16, 1997-09-11

一般社団法人情報処理学会

詳細情報詳細情報について

CRID: 1573387452013888384

NII論文ID: 110002934580

NII書誌ID: AN10115061

本文言語コード: ja

データソース種別

CiNii Articles

書き出し

問題の指摘

単語頻度の再推定による自己組織化単語分割

書誌事項

この論文をさがす

説明

収録刊行物

被引用文献 (4)*注記

参考文献 (14)*注記

詳細情報詳細情報について

書き出し

問題の指摘

単語頻度の再推定による自己組織化単語分割

書誌事項

この論文をさがす

説明

収録刊行物

被引用文献 (4)*注記

参考文献 (14)*注記

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について