有益な検索結果提示のための部分文書再構成手法の提案

書誌事項

タイトル別名
  • ユウエキ ナ ケンサク ケッカ テイジ ノ タメ ノ ブブン ブンショ サイコウセイ シュホウ ノ テイアン
  • A Proposal of a Reconstruction Method to Return Well-informative Search Results

この論文をさがす

抄録

XML 文書を対象とした情報検索では,文書単位よりも細かな粒度の部分文書を対象とした検索を行うことが可能である.従来の部分文書に対する検索技術では,各部分文書に対するクエリへの適合度の算出方法に焦点を当てているため,各適合度すなわちスコアリング結果から,検索結果である部分文書 1 つ 1 つをどのように構成するのかということに関しては十分に議論されてこなかった.しかしながら,各部分文書の持つスコアのみに依存した形での検索結果の提示方法では,1) 大きすぎる (不要な部分を含む) 粒度の部分文書が抽出される,2) 適合部分文書の一部しか抽出できない,といった問題が起こりうる.これらの問題を解決するため,我々は各部分文書のテキストサイズと部分文書間の包含関係を考慮した適合部分抽出手法を提案する.さらに,先祖や子孫の部分文書の統計量を考慮したスコアリング手法を提案し,情報要求に強く合致する部分文書を検索結果上位にランキングすることを目指す.評価実験の結果,提案手法は従来手法と比較して約 8% 検索精度が改善された.

We propose a method for identifying appropriate granular fragments for user information needs and obtaining more accurate search results in XML fragment search. Existing approaches simply generate a ranked list in descending order of each XML fragment's relevance to a search query. These approaches have problems, i.e., they may extract irrelevant fragments and overlook more relevant fragments. To address these problems, we generate a refined ranked list through two steps. First, we extract and reconstruct relevant fragments considering the sizes of XML fragments and relationships among XML fragments in a simple ranked list. Second, we score these XML fragments with useful statistics of its descendant/ancestor XML fragments. Our experimental results show that our method improves search accuracy by 8% compared with simple BM25E which neither reconstruct XML fragments nor use some kinds of statistics.

収録刊行物

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ