高次元ベクトル空間モデルによるテキスト分類問題について : 分類性能と距離構造の漸近解析(理論・技術)

後藤 正幸, 石田 崇, 鈴木 誠, 平澤 茂一

doi:10.11221/jima.61.97

書誌事項

タイトル別名

A Theoretical Analysis of Document Classification based on a High-dimensional Vector Space Model : Asymptotic Analysis of Classification Performance and Distance Measures(Theory and Methodology)
高次元ベクトル空間モデルによるテキスト分類問題について--分類性能と距離構造の漸近解析
コウジゲンベクトルクウカンモデルニヨルテキストブンルイモンダイニツイテブンルイセイノウトキョリコウゾウノゼンキンカイセキ

この論文をさがす

抄録

近年,インターネットの普及により膨大なテキストデータからの知識発見を扱うテキストマイニングの技法が注目されている.本研究では,テキストマイニングが取り扱う問題の中でも,特に文書分類の問題を取り上げ,形態素解析後の単語の出現分布としてある確率モデルのクラスを仮定し,文書分類の性能,並びに分類に用いられる距離について漸近的な分析を行う.一般に,文書分類に不必要な単語の混入を完全に排除することは難しく,様々な重要単語の重み付け法などが提案されている.本論文で扱う最初の問題は,このような分類に不必要な単語が混入することが,文書分類に与える性能劣化の程度を把握することである.さらには,単語の出現頻度に基づく文書分類においては,個々の単語の生起頻度は少なく,多くの単語の頻度がゼロとなってしまうというスパースネスの問題がある.すなわち,このベクトル空間上で一つの文書を表す点は,ゼロを多くの要素に持つベクトルで表現される.しかし,「このような状況で,文書同士の距離による分類がある程度の分類性能を示すのは何故か」という疑問については依然として経験的な解釈が与えられているのみである.その理論的根拠を与えるため,本稿では,各要素の出現頻度を有限に保ったまま,次元数を無限大とする新たな漸近論の概念を導入することにより,スパースな文書ベクトル間の距離について解析的な性能を示す.

収録刊行物

日本経営工学会論文誌

日本経営工学会論文誌 61 (3), 97-106, 2010

公益社団法人日本経営工学会

キーワード

詳細情報詳細情報について

CRID: 1390001205504094336

NII論文ID: 110007682185

NII書誌ID: AN10561806

DOI: 10.11221/jima.61.97

ISSN: 21879079; 13422618

NDL書誌ID: 10809636

Web Site: https://ndlsearch.ndl.go.jp/books/R000000004-I10809636

本文言語コード: ja

データソース種別

JaLC
NDL
CiNii Articles

抄録ライセンスフラグ: 使用不可

高次元ベクトル空間モデルによるテキスト分類問題について : 分類性能と距離構造の漸近解析(理論・技術)

書誌事項

この論文をさがす

抄録

収録刊行物

参考文献 (37)*注記

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

高次元ベクトル空間モデルによるテキスト分類問題について : 分類性能と距離構造の漸近解析(理論・技術)

書誌事項

この論文をさがす

抄録

収録刊行物

参考文献 (37)*注記

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について