中国語オンライン手書き文字認識:日本語のオンライン手書き漢字認識との比較と認識性能・文字入力効率の改善
Bibliographic Information
- Other Title
-
- チュウゴクゴ オンライン テガキ モジ ニンシキ ニホンゴ ノ オンライン テガキ カンジ ニンシキ ト ノ ヒカク ト ニンシキ セイノウ モジ ニュウリョク コウリツ ノ カイゼン
- On - line Chinese Handwriting Character Recognition : Comparison with Japanese Kanji Recognition and Improvement of Input Efficiency
- パターン認識:文字認識のためのビジョン
Search this article
Description
中国における使用を想定して 中国版モバイルコンピュータ用オンライン手書き中国語文字認識ソフトウェアを開発した. この開発は 日本語版のオンライン手書き文字認識方式をベースにしており 基本的には その漢字認識ソフトウェアを中国語向けに変更・追加したものである. 一般に 中国文字と漢字は印刷字形の類似したものが多いので 「中国文字は字種が多い」程度の違いしかないと考えられがちである. しかし 印刷字形が同じでも オンライン手書き文字パターンは中国人と日本人とでは異なることが多い. しかも 個人差が日本人より大きい. また 字種が多いだけに類似文字も多い. 本稿では 中国固有の簡体字と伝統的な繁体字を合わせて8063字種を認識対象として検討した. 文字パターン収集は上海で行った. 簡体字のうち 使用頻度の高い3942字種を標準セット 残りの簡体字と繁体字を合わせて4121字種を拡張セットとし 前者を400人分 後者を50人分収集した. 標準セットの文字データを分析した結果 正しい画数で書かれたものは約30%(漢字では60%以上) そのうちで正しい筆順で書かれたものは約80%であった. そこで 続け書き文字の認識性能向上に焦点を絞り 認識方式を改良した結果 標準セット文字の平均認識率89% 第10位分類率98%を得た. 文字入力効率改善には 8万単語の情報を用いた単語知識処理による候補の絞り込みが有効であることが分かった.
Most Chinese characters are thought to have the same shape as their Japanese Kanji counterparts. Although this is true for most printed characters, it is not true for handwriting characters. This paper first describes the differences between handwriting character patterns in Chinese and Japanese based on an investigation of 8,063 categories of Chinese character patterns collected in Shanghai. 3,942 categories of the basic set were written by 400 people and 4,121 categories of the optional set by 50 people. Second, it is shown that Chinese characters are difficult to be recognized by adapting our original on-line Kanji recognition algorithm, because of the variety in number of strokes, stroke order and shape. Only 30% of the characters were written in the correct number of strokes (compared with 60% for Kanji), and only 80% of the correct samples were written in the correct stroke order. The original recognition algorithm was modified and improved to handle cursive style handwriting. The experimental results show a recognition rate of 89% and a 98% recognition rate is achieved for the 10th candidate. For practical Chinese character input, much higher recognition rates seem necessary and it is shown that a Chinese word dictionary can be used effectively together with the character recognition algorithm.
Journal
-
- 情報処理学会論文誌
-
情報処理学会論文誌 40 (8), 3289-3298, 1999-08-15
東京 : 情報処理学会
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1050845762815498752
-
- NII Article ID
- 110002724933
-
- NII Book ID
- AN00116647
-
- ISSN
- 18827764
- 03875806
-
- NDL BIB ID
- 4825165
-
- Text Lang
- ja
-
- Article Type
- journal article
-
- Data Source
-
- IRDB
- NDL Search
- CiNii Articles