単語の出現頻度と類似性に基づいたトピックモデル洗練化手法

DOI Web Site オープンアクセス

書誌事項

タイトル別名
  • A Method of Refining Topic Models Based on Term and Document Frequencies.
  • タンゴ ノ シュツゲン ヒンド ト ルイジセイ ニ モトズイタ トピックモデル センレンカ シュホウ

この論文をさがす

抄録

<p>近年では,開発環境の変化に伴って開発者が大量の自然言語文書を扱う機会が増えており,文書をトピック分類するためのトピックモデルであるLDAが注目されている.文書のトピック分類を行う際,分類の精度をあげるために前処理として,分類の妨げとなる単語をストップワードとして除去することが重要であるが,通常のストップワードリストでは対象文書にのみ頻出する単語に対応できないという問題があった.また,1トピックに集約されるべき文書が複数トピックに分散してしまう問題があった.本稿では,これらの問題を解消するため,LDA適用の前後に対象文書からのストップワード抽出と類似トピック統合の2種類の処理を追加する.前処理では,Document Frequencyと単語の類似度を用いて,対象文書からストップワードリストを作成する.また,後処理では分類されたトピックについて構成する単語の類似度からそれぞれのトピック間距離を算出し類似トピックを統合する.LDAを用いたメーリングリストの分類に本手法を適用し,既存手法と比較することで,トピック分類の精度が向上することを確認した.</p>

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ