書誌事項
- タイトル別名
-
- サイダイ エントロピー ゲンリ ニ モトヅク フカ ジョウホウ ノ コウカテキ ナ リヨウ ニ ヨル テキスト ブンルイ
- Text Classification by Effectively Using Additional Information Based on Maximum Entropy Principle
- 情報検索
この論文をさがす
抄録
Web ページのリンク情報など,本文の他に付加情報を含むテキストデータの分類問題のために,付加情報を同時に用いて高精度な多クラス分類器を設計する手法を提案する.この問題に対して,従来の確率的アプローチでは,生成,識別の各アプローチと,生成,識別アプローチのハイブリッドに基づく分類器が提案されてきた.従来のハイブリッド分類器が2 クラス問題を対象とするのに対して,提案法では多クラス問題を直接扱うハイブリッド分類器を与える.具体的には,データに含まれる構成要素ごとに設計した生成モデルを最大エントロピー原理に基づいて結合することで分類器を構築する.文書やWeb ページに含まれるテキスト,リンクの各構成要素の生成モデルとして,ナイーブベイズモデルを用いる.3 つの実データを用いた分類実験により,付加情報をテキスト分類に用いる効果を確認するとともに,生成,識別アプローチでの分類精度の差が小さいほど提案法による分類精度が両アプローチを大きく上回ることを確認した.
We propose a multi-class text classifier that can handle both main text and additional information such as link information in web pages and thus improve classification performance. Existing probabilistic approaches to classifier design with main text and additional components are generative, discriminative, or a hybrid of the two. As the conventional hybrid classifier was designed for binary classification, we present a hybrid classifier for dealing directly with multi-class classification, which is constructed by combining component generative models based on the maximum entropy principle. We use naive Bayes models as component generative models designed for text and link information contained in documents and web pages. Our experimental results for three test collections confirmed the effectiveness of using additional information for text classification. The results also revealed that our hybrid classifier greatly outperformed both the generative and discriminative classifiers when there was little difference in their performance.
収録刊行物
-
- 情報処理学会論文誌
-
情報処理学会論文誌 47 (10), 2929-2937, 2006-10-15
東京 : 情報処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1050564287835943040
-
- NII論文ID
- 110004822979
-
- NII書誌ID
- AN00116647
-
- ISSN
- 18827764
- 03875806
-
- NDL書誌ID
- 8540651
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- IRDB
- NDL
- CiNii Articles