目次情報を用いた書籍の文書画像構造解析

書誌事項

タイトル別名
  • モクジ ジョウホウ オ モチイタ ショセキ ノ ブンショ ガゾウ コウゾウ カイセキ
  • Logical Structure Analysis of Book Document Image Using Contents Information
  • 画像情報

この論文をさがす

抄録

これまで,文字認識などのメディア変換や文書画像のレイアウト解析を中心に多くの文書画像処理技術の検討が行われてきた.一方,図書館の蔵書をハイパーテキスト化する場合,文書画像のレイアウト解析だけではなく,文書の論理構造分析にも注目すべきである.書籍の場合,目次は書籍の文書論理構造を最も忠実かつ簡潔に表しているものであり,この論理構造をベースに書籍の本文を分析した方が効率的であると考えられる.本論文は,目次情報を利用して文書画像を電子的な文書へ変換する新しい文書構造解析手法を提案する.これまで行われてきた手法は,事前に細部にわたり定義されたレイアウトモデルもしくはキーワードとのマッチングにより文書構造理解を行うものであった.これらの手法で問題となっているのは識別率の高いモデル作成法およびモデル構築の負担である.そこで本論文ではこれらの問題を解決するため,書籍それぞれの文書構造を簡潔かつ的確に表現している目次情報からモデルを作成し,これと文書画像とのマッチング処理により構造化処理を行う.これによりモデル作成の負担を軽減でき,かつ個々に付属した目次情報を利用するため汎用性も向上させることができる.実験の結果,書籍の論理構造である章節構造99%,見出しセッション94%,ヘッダ・フッタ・ページ番号構造100%など,高い識別率を得ることができた.最後に,本方式に基づいて,解析した文書画像をHTMLに変換する事例も紹介する.

Numerous studies have so far been carried out extensively for the analysis of document image structure with particular emphasis placed on media conversion and layout analysis. For the conversion of a collection of books in a library to the form of hypertext documents, the logical structure extraction technology is indispensable in addition to document layout analysis. The table contents of a book generally involves very concise and faithful information to represent the logical structure of the entire book document. That is to say, we can efficiently analyze the logical structure of a book by making full use of its contents pages. This paper is intended to propose a new approach for document logical structure analysis to convert document images and contents information into an electronic document. First, the contents page of a book are analyzed to acquire overall document logical structure. Thereafter, we are able to use this information to acquire the logical structure of the whole pages of the book by analyzing consecutive pages of a portion of the book. The test results demonstrate very high discrimination rates: up to 94% for the headline structure, 99% for chapter number, 100% for the head-foot structure.

収録刊行物

参考文献 (9)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ