XML文書の文書構造と内容を用いた部分文書の抽出手法

書誌事項

タイトル別名
  • XML ブンショ ノ ブンショ コウゾウ ト ナイヨウ オ モチイタ ブブン ブンショ ノ チュウシュツ シュホウ
  • A Retrieval Method for Partial XML Documents Using Their Structures and Contents

この論文をさがす

抄録

XMLの出現によりネットワーク上に流通,公開されている構造化文書の検索はますます重要になっている.現在の構造化文書検索は,選択条件および出力文書構造をXML 問合せ言語を用いて宣言的に指定する方法,もしくはWeb サーチエンジンにみられる情報検索技術による全文検索がほとんどである.前者は利用者があらかじめ検索対象とする文書の論理構造についての知識を必要とし,後者の検索単位は物理構造上の単位であるファイルに固定されている.そのため利用者が文書の論理構造を意識せずに問合せとの関連性の高い文書部分を取り出すことができない.本論文では,利用者の問合せとの関連性が高く,しかも論理構造上の単位となる文書部分の検索を「文脈検索」と呼び,(1)論理構造上の単位となる文書部分の特定,(2)文書内容を用いた利用者の問合せとの関連性の高い文書部分の抽出,を実現し,その有効性を検証する.

The advent ofXML makes retrieving techniques ofstructured documents on the network more and more important.However,current retrieval methods are the use ofquery language by specifying selection conditions and output structures or the use of keywords of traditional Information Retrieval methods.For the former methods are required by users to know the document structures beforehand.The latter methods are required to retrieve a whole documents.Therefore users are not able to retrieve partial documents highly related to users’query without considering document structures.In this paper,we propose a new method in order to retrieve appropriate partial XML documents without having the knowledge ofdocuments ’ structures beforehand.We call this method “Context Search ”.The process of our context search consists oftwo steps:(1)identi fication ofpartial XML documents which are coherent and meaningful unit;and (2)evaluation of the relevance of the identi fied partial documents against queries.We describe our developed algorithms to identify result partial documents as an instantiation for context search methods,and we report our evaluation experiment to verify the effectiveness of our method.

収録刊行物

被引用文献 (2)*注記

もっと見る

参考文献 (29)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ