古典籍翻刻の省力化:くずし字を含む新方式OCR技術の開発

  • 山本 純子
    凸版印刷株式会社 情報コミュニケーション事業本部
  • 大澤 留次郎
    凸版印刷株式会社 情報コミュニケーション事業本部

書誌事項

タイトル別名
  • Labor saving for reprinting Japanese rare classical books : The development of the new method for OCR technology including kana and kanji characters in cursive style
  • コテンセキ ホンコク ノ ショウリョクカ : クズシ ジ オ フクム シン ホウシキ OCR ギジュツ ノ カイハツ

この論文をさがす

抄録

現代に生きるほとんどの日本人は「くずし字」で書かれた古典籍を読めず,大量に現存する古典籍の内容がわからなくなりつつある。そこで,負荷の高い翻刻の省力化を目的に,新方式OCRを開発した。くずし字を含む古典籍を対象とした原理検証実験の結果,一定の条件下で,精度80%以上の自動テキストデータ化が可能であることを実証した。新方式OCRでは,文字画像を位置情報とともに切り出した字形データベースを構築。この字形データベースから類似字形検索により翻刻対象古典籍の文字の文字コードを特定する。また,完全自動化ではなく,人手と自動処理を組み合わせた作業工程設計により翻刻の総合的な負荷軽減を目指す。新方式OCRの仕組みと,これを用いた翻刻の現況を報告する。

収録刊行物

  • 情報管理

    情報管理 58 (11), 819-827, 2016

    国立研究開発法人 科学技術振興機構

詳細情報 詳細情報について

問題の指摘

ページトップへ