単語の出現頻度と類似性に基づいたトピックモデル洗練化手法

東 和幸, 高橋 仁, 中川 博之, 土屋 達弘

doi:10.11309/jssst.36.4_25

書誌事項

タイトル別名

A Method of Refining Topic Models Based on Term and Document Frequencies.
タンゴノシュツゲンヒンドトルイジセイニモトズイタトピックモデルセンレンカシュホウ

この論文をさがす

説明

<p>近年では，開発環境の変化に伴って開発者が大量の自然言語文書を扱う機会が増えており，文書をトピック分類するためのトピックモデルであるLDAが注目されている．文書のトピック分類を行う際，分類の精度をあげるために前処理として，分類の妨げとなる単語をストップワードとして除去することが重要であるが，通常のストップワードリストでは対象文書にのみ頻出する単語に対応できないという問題があった．また，1トピックに集約されるべき文書が複数トピックに分散してしまう問題があった．本稿では，これらの問題を解消するため，LDA適用の前後に対象文書からのストップワード抽出と類似トピック統合の2種類の処理を追加する．前処理では，Document Frequencyと単語の類似度を用いて，対象文書からストップワードリストを作成する．また，後処理では分類されたトピックについて構成する単語の類似度からそれぞれのトピック間距離を算出し類似トピックを統合する．LDAを用いたメーリングリストの分類に本手法を適用し，既存手法と比較することで，トピック分類の精度が向上することを確認した．</p>

収録刊行物

コンピュータソフトウェア

コンピュータソフトウェア 36 (4), 4_25-4_31, 2019-10-25

日本ソフトウェア科学会

詳細情報詳細情報について

CRID: 1390283659833300992

NII論文ID: 130007772583

NII書誌ID: AN10075819

DOI: 10.11309/jssst.36.4_25

NDL書誌ID: 030076870

ISSN: 02896540

Web Site: http://id.ndl.go.jp/bib/030076870; https://ndlsearch.ndl.go.jp/books/R000000004-I030076870

本文言語コード: ja

資料種別: journal article

データソース種別

JaLC
NDLサーチ
CiNii Articles
KAKEN

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘