特定の近代書籍出版者における低出現頻度文字種の獲得方法

書誌事項

タイトル別名
  • Method of Acquiring Low-frequency Character Types for Specific Early-Modern Japanese Printed Book Publishers

この論文をさがす

説明

国立国会図書館がWeb上で公開している画像データはテキストデータに比べると利便性が低い.早急なテキスト化が望まれているが,明治から昭和初期にかけて刊行された近代書籍は既存のOCR技術ではテキスト化が困難である.そのため,近代書籍に特化した文字認識手法が提案されている.実用的な利用には学習データとして用いる近代書籍文字画像を増やす必要があるが,収集できる近代書籍文字画像には限界がある.そこで,近代書籍フォント文字画像の自動生成を試みる.生成画像の精度向上のため,様々なアーキテクチャによるフォント生成実験を行い,それぞれのフォント生成性能の評価を行う.

The image data published on the web by the National Diet Library is less convenient than the text data. Rapid text conversion is desired. However, it is difficult to convert image data of early-modern books, which published from the Meiji era to the early Showa era, into text data using existing OCR technology. Therefore, a character recognition method specialized for early-modern books has been proposed. For practical use, it is necessary to increase the number of character images of early-modern books used as training data. However, there is a limit to collect character images of early-modern book. Then we attempt to automatically generate character images of fonts that used in early-modern book. In order to improve the accuracy of the generated images, we conduct experiments on font generation using various architectures, and evaluate the performance of each.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ