単語の共起に基づく関連文書検索,算法と検索事例

書誌事項

タイトル別名
  • Document retrieval based on word's cooccurrences, the algorithum and its application.
  • タンゴ ノ キョウキ ニ モトヅク カンレン ブンショ ケンサク サンポウ ト ケンサク ジレイ

この論文をさがす

抄録

異なった文書に同時に現われる単語に着目することにより,潜在的な意味的検索をおこなうDeerwester(1990)のLatent Semantic Analysisを日本語の比較的大規模な文書集合に対して適用した.その中で,大型疎行列における特異値分解アルゴリズムの比較検討を行ない,日本語文書検索に適した方法を見つけた.これを実際の新聞記事で試し,文書検索,および関連語表示において有効であることの見通しを得た.また実装する上での工夫として,関連文書検索においては,文書の大きさによる基準化が必要なことがわかった.さらに,重複を許す単語のクラスタリングを試みた.

収録刊行物

被引用文献 (3)*注記

もっと見る

参考文献 (32)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ