活字データの分類を用いた進化計算による近代書籍からのルビ除去
書誌事項
- タイトル別名
-
- Ruby Removal Filters by Genetic Programming Using the Classification of Printing Type Data for Early-modern Japanese Printed Books
この論文をさがす
説明
国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとしてWeb上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキスト化が望まれている.その際,問題となっているのがヒストグラム法では除去できないルビであり,我々はすでに近代書籍に特化したルビ除去手法を提案している.しかしながら,その提案した手法は書籍に付加された版者や時代などの外部情報を利用しなければならず,近代デジタルライブラリのすべての外部情報を利用することはきわめて困難である.そこで本論文では,対象とする書籍画像から直接得られるデータをもとに,進化計算によってルビ除去式を生成し,近代書籍から自動でルビを除去する手法を提案する.
In the web site of National Diet Library, the digital library from the Meiji era is open to the public. Since the early-modern Japanese printed books are given as image data, namely, full-text search is not available, automatic conversion to the text is needed. There is a major obstacle to the text conversion because of ruby, which is found in early-modern printed books. Ruby cannot be removed by the existing and traditional histogram method. Therefore, we have proposed a ruby removal method for early-modern printed books. Since the proposed method is based on the external information added to the books, the feasibility is very low. In this paper, we propose a new method to remove the ruby automatically from early-modern Japanese printed books by generating ruby removal formula by Genetic Programming using the training data based on the book images.
収録刊行物
-
- 情報処理学会論文誌数理モデル化と応用(TOM)
-
情報処理学会論文誌数理モデル化と応用(TOM) 8 (1), 72-79, 2015-03-30
一般社団法人情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050845762835892352
-
- NII論文ID
- 110009886645
-
- NII書誌ID
- AA11464803
-
- ISSN
- 18827780
-
- Web Site
- http://id.nii.ac.jp/1001/00141551/
-
- 本文言語コード
- ja
-
- 資料種別
- article
-
- データソース種別
-
- IRDB
- CiNii Articles
- KAKEN