ベイズ符号化法によって推定される木情報源の類似度を用いた自動文書分類

  • 岩間 大輝
    早稲田大学大学院創造理工学研究科経営システム工学専攻
  • 石田 崇
    早稲田大学メディアネットワークセンター
  • 後藤 正幸
    早稲田大学理工学術院創造理工学部経営システム工学科

書誌事項

タイトル別名
  • Text Classification using Similarity of Tree Sources Estimated from Bayes Coding Algorithm
  • ベイズ フゴウカホウ ニ ヨッテ スイテイ サレル モク ジョウホウゲン ノ ルイジド オ モチイタ ジドウ ブンショ ブンルイ

この論文をさがす

抄録

本論文では,データ圧縮手法の一つであるベイズ符号化法を利用した自動文書分類手法を提案する.ベイズ符号化法は有限長のデータ系列に対してベイズ最適性を保証したデータ圧縮手法である.データ圧縮を用いた文書分類手法は辞書式のZIPフォーマットを用いた手法や,統計型のContext Tree Weighting (CTW) 法を用いた手法が提案されている.これらの手法ではあらかじめ個々の文書に対してデータ圧縮処理を行い,その圧縮率を用いて文書間の類似度を測り分類を行う手法である.一方,本手法ではベイズ符号化法がデータを圧縮する際に情報源の確率構造を陽に推定し,副次的にその確率構造を出力が可能であることを利用する.個々の文書ごとに推定された確率構造を用い,それらの距離によって文書同士の類似度を測ることにより文書分類を行う.さらに提案手法を著者判定の文書分類問題に適用し,その有効性を示す.

収録刊行物

参考文献 (27)*注記

もっと見る

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ