日本語文書に対する新しい索引検索方式 : 索引作成と検索の原理

書誌事項

タイトル別名
  • New indices for Japanese text : The principle of making index and searching index

この論文をさがす

抄録

近年,実用化が進んでいる大規模な全文検索システムにおいては,単純な文字列枚索では高速化に限界があるため,文字成分表などのシグニチャファイル方式,あるいはn-gramによる転置ファイル方式などの高速化手法が提案されている.更に高速化を図るためには,n-gramではなく,検索文字列として意味のある通常の単語による転置ファイルを用いることが考えられるが,膠着語である日本語文書に対してその手法を適用しようとすると,形態素解析などの単語切り出しを行なわねばならず,その単語切り出しが完全に行なわれない限り,検索もれが避けられない.筆者らは,上の問題を解決する,検索もれのない単語索引検索方式を考案した.本方式では,単語による索引ファイルを構成するため,n-gramによる転置ファイルに比べて,原理的に高速化が可能であり,更に索引ファイルの容量も低減できる.本稿では,その単語索引作成方法と索引検索方法の原理について報告する.

収録刊行物

被引用文献 (3)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ