大規模データの俯瞰とターゲットデータの抽出に対する文書‐単語行列の特異値分解と特異値による重みづけの有効性

平野 真理子, 小早川 健

doi:10.5715/jnlp.20.335

書誌事項

タイトル別名

Effect of Singular Value Decomposition and Weighting by Singular Value of Document-Term Matrix, for Large-scale Data Perspective and Targeted Data Extraction
大規模データの俯瞰とターゲットデータの抽出に対する文書-単語行列の特異値分解と特異値による重みづけの有効性
ダイキボデータノフカントターゲットデータノチュウシュツニタイスルブンショ-タンゴギョウレツノトクイチブンカイトトクイチニヨルオモミズケノユウコウセイ

この論文をさがす

説明

東日本大震災ビッグデータワークショップにおいて提供された，震災当日を含めた 1 週間分のツイートのうち，震災対応の初動期間にあたる震災後 72 時間を含む 4 日分のツイッターを解析した．ツイートのクラスタリングによって得られる全体の俯瞰を行ってから目的に応じた分類項目を設定し，その項目に即したツイートを抜き出す抽出器を作成した．一連の作業をよく行うためには，分類項目を設定するために用いられるクラスタリングの性能向上が重要な要素となっている．本研究では，古典的な類義語処理手法である特異値分解をクラスタリングに適用する際に，良く知られている次元圧縮に留まらず，特異値の大きさを特徴量の重みづけの大きさとして活用する手法を提案する．また，クラスタリング結果を人手で修正する作業の容易度を測るための新たな指標を提案し，人手による実作業の効率と比較する実験を行った．その結果，クラスタリングについては，主に作業効率の観点から，特異値による重みづけの有効性と提案する作業指標の妥当性が確認された．分類問題であるターゲットデータ抽出については，学習過程にそもそも重みづけの機構が備わっているにもかかわらず，検出率の向上に若干の効果が見られた．

収録刊行物

自然言語処理

自然言語処理 20 (3), 335-365, 2013

一般社団法人　言語処理学会

キーワード

詳細情報詳細情報について

大規模データの俯瞰とターゲットデータの抽出に対する文書‐単語行列の特異値分解と特異値による重みづけの有効性

書誌事項

この論文をさがす

説明

収録刊行物

参考文献 (43)*注記

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

大規模データの俯瞰とターゲットデータの抽出に対する文書‐単語行列の特異値分解と特異値による重みづけの有効性

書誌事項

この論文をさがす

説明

収録刊行物

参考文献 (43)*注記

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について