無限混合Dirichletトピックモデル

書誌事項

タイトル別名
  • Infinite Dirichlet Mixture Topic Model
  • ムゲン コンゴウ Dirichlet トピック モデル

この論文をさがす

抄録

<p>近年、機械学習やデータマイニングにおいて、トピックモデルと呼ばれる確率的生成モデルの研究が盛んに行われている. トピックとは,データの隠れた情報や性質を表わす潜在的なクラスである. 例えば,文書データの場合,トピックとは文書に潜む分野情報もしくは単語の意味カテゴリとなる. Latent Dirichlet allocation (LDA) は,最もよく使われているトピックモデルの1つである. LDAは,トピックの分布を多項分布でモデル化し,トピック分布の分布に対してDirichlet分布を仮定する. LDAの問題点は,Dirichlet分布単体を用いるために,多峰を持つようなトピック分布の分布をモデル化できないことである. 本研究では,トピックの分布に対して混合Dirichlet分布を仮定することで、より柔軟なトピック分布のモデル化を行う. さらに,Dirichlet過程を用いて無限混合モデルとすることにより,混合数に対してもロバストなモデルを提案する. 実際の文書データに対して適応し,提案モデルは,LDAよりもPerplexityが下がることを示す.</p>

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ