単語重みを用いたアソシエーション分析に基づく文書分類のための自動的クエリ拡張

書誌事項

タイトル別名
  • Automatic Query Expansion for Document Classification Based on Association Analysis with Term Weights

この論文をさがす

抄録

文書分類問題では単語数の少ない文書を分類することが難しい.情報検索分野ではクエリの単語数の少なさに対して,アソシエーション分析に基づきクエリに含まれる単語と関連度の高い単語を追加することで検索性能を改善するクエリ拡張手法がある.しかし文書分類問題においては,クエリに含まれる単語と関連度の高い単語が正しいクラスを特徴付けるとは限らないため,分類性能を改善することはできない.また,従来のアソシエーション分析では文書に対する単語の重要度(単語重み)が考慮されていないため,単語間の関連度が適切でない可能性がある.これらの課題をふまえて,本論文では文書分類性能改善のために2つの提案を行う.(1)クラスごとに分割した文書集合に対してアソシエーション分析を行い,クラスに対する単語の重要度に基づいて推定されたクラスにおいてクエリに含まれる単語との関連度が高い単語を追加する.(2)アソシエーション分析における単語間の関連度計算に単語重みを利用する.実験では,クエリ拡張を用いた単語数の少ない文書の分類タスクを複数のデータセットで実施し,提案手法による拡張後クエリの分類性能改善を確認した.また関連度に設定する閾値に対する評価指標の感度分析により,多くの閾値設定で単語重みを考慮する方が分類性能を改善できることを明らかにした.

We propose automatic query expansion for document classification based on association analysis with term weights. In document classification, it is difficult to classify document with a few terms. Automatic query expansion based on association analysis improves document retrieval performance by adding terms with high relevance to the query terms. However, terms with high relevance to the query terms does not always characterize correct class. Moreover, relevance between terms can be inappropriate in the conventional association analysis because term weights are not considered. For each of these problem, we propose two approaches. (1) we apply association analysis to each document set divided by class and add terms with high relevance to the query terms in the estimated class. (2) we use term weights in calculation of relevance between terms. The experimental result shows that the proposed method improves classification performance in some datasets and use of term weights improves classification performance in many settings of threshold of degree of relevance.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050282813268884096
  • NII論文ID
    170000150211
  • NII書誌ID
    AN00116647
  • ISSN
    18827764
  • Web Site
    http://id.nii.ac.jp/1001/00195320/
  • 本文言語コード
    ja
  • 資料種別
    journal article
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ