書誌事項
- タイトル別名
-
- A Method of Refining Topic Models Based on Term and Document Frequencies.
- タンゴ ノ シュツゲン ヒンド ト ルイジセイ ニ モトズイタ トピックモデル センレンカ シュホウ
この論文をさがす
説明
<p>近年では,開発環境の変化に伴って開発者が大量の自然言語文書を扱う機会が増えており,文書をトピック分類するためのトピックモデルであるLDAが注目されている.文書のトピック分類を行う際,分類の精度をあげるために前処理として,分類の妨げとなる単語をストップワードとして除去することが重要であるが,通常のストップワードリストでは対象文書にのみ頻出する単語に対応できないという問題があった.また,1トピックに集約されるべき文書が複数トピックに分散してしまう問題があった.本稿では,これらの問題を解消するため,LDA適用の前後に対象文書からのストップワード抽出と類似トピック統合の2種類の処理を追加する.前処理では,Document Frequencyと単語の類似度を用いて,対象文書からストップワードリストを作成する.また,後処理では分類されたトピックについて構成する単語の類似度からそれぞれのトピック間距離を算出し類似トピックを統合する.LDAを用いたメーリングリストの分類に本手法を適用し,既存手法と比較することで,トピック分類の精度が向上することを確認した.</p>
収録刊行物
-
- コンピュータ ソフトウェア
-
コンピュータ ソフトウェア 36 (4), 4_25-4_31, 2019-10-25
日本ソフトウェア科学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390283659833300992
-
- NII論文ID
- 130007772583
-
- NII書誌ID
- AN10075819
-
- NDL書誌ID
- 030076870
-
- ISSN
- 02896540
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- JaLC
- NDLサーチ
- CiNii Articles
- KAKEN
-
- 抄録ライセンスフラグ
- 使用不可