最大エントロピー原理に基づく付加情報の効果的な利用によるテキスト分類

Bibliographic Information

Other Title
  • サイダイ エントロピー ゲンリ ニ モトヅク フカ ジョウホウ ノ コウカテキ ナ リヨウ ニ ヨル テキスト ブンルイ
  • Text Classification by Effectively Using Additional Information Based on Maximum Entropy Principle
  • 情報検索

Search this article

Abstract

Web ページのリンク情報など,本文の他に付加情報を含むテキストデータの分類問題のために,付加情報を同時に用いて高精度な多クラス分類器を設計する手法を提案する.この問題に対して,従来の確率的アプローチでは,生成,識別の各アプローチと,生成,識別アプローチのハイブリッドに基づく分類器が提案されてきた.従来のハイブリッド分類器が2 クラス問題を対象とするのに対して,提案法では多クラス問題を直接扱うハイブリッド分類器を与える.具体的には,データに含まれる構成要素ごとに設計した生成モデルを最大エントロピー原理に基づいて結合することで分類器を構築する.文書やWeb ページに含まれるテキスト,リンクの各構成要素の生成モデルとして,ナイーブベイズモデルを用いる.3 つの実データを用いた分類実験により,付加情報をテキスト分類に用いる効果を確認するとともに,生成,識別アプローチでの分類精度の差が小さいほど提案法による分類精度が両アプローチを大きく上回ることを確認した.

We propose a multi-class text classifier that can handle both main text and additional information such as link information in web pages and thus improve classification performance. Existing probabilistic approaches to classifier design with main text and additional components are generative, discriminative, or a hybrid of the two. As the conventional hybrid classifier was designed for binary classification, we present a hybrid classifier for dealing directly with multi-class classification, which is constructed by combining component generative models based on the maximum entropy principle. We use naive Bayes models as component generative models designed for text and link information contained in documents and web pages. Our experimental results for three test collections confirmed the effectiveness of using additional information for text classification. The results also revealed that our hybrid classifier greatly outperformed both the generative and discriminative classifiers when there was little difference in their performance.

Journal

Citations (3)*help

See more

References(17)*help

See more

Keywords

Details 詳細情報について

Report a problem

Back to top