大規模データの俯瞰とターゲットデータの抽出に対する文書‐単語行列の特異値分解と特異値による重みづけの有効性

書誌事項

タイトル別名
  • Effect of Singular Value Decomposition and Weighting by Singular Value of Document-Term Matrix, for Large-scale Data Perspective and Targeted Data Extraction
  • 大規模データの俯瞰とターゲットデータの抽出に対する文書-単語行列の特異値分解と特異値による重みづけの有効性
  • ダイキボ データ ノ フカン ト ターゲットデータ ノ チュウシュツ ニ タイスル ブンショ-タンゴ ギョウレツ ノ トクイチ ブンカイ ト トクイチ ニ ヨル オモミ ズケ ノ ユウコウセイ

この論文をさがす

抄録

東日本大震災ビッグデータワークショップにおいて提供された,震災当日を含めた 1 週間分のツイートのうち,震災対応の初動期間にあたる震災後 72 時間を含む 4 日分のツイッターを解析した.ツイートのクラスタリングによって得られる全体の俯瞰を行ってから目的に応じた分類項目を設定し,その項目に即したツイートを抜き出す抽出器を作成した.一連の作業をよく行うためには,分類項目を設定するために用いられるクラスタリングの性能向上が重要な要素となっている.本研究では,古典的な類義語処理手法である特異値分解をクラスタリングに適用する際に,良く知られている次元圧縮に留まらず,特異値の大きさを特徴量の重みづけの大きさとして活用する手法を提案する.また,クラスタリング結果を人手で修正する作業の容易度を測るための新たな指標を提案し,人手による実作業の効率と比較する実験を行った.その結果,クラスタリングについては,主に作業効率の観点から,特異値による重みづけの有効性と提案する作業指標の妥当性が確認された.分類問題であるターゲットデータ抽出については,学習過程にそもそも重みづけの機構が備わっているにもかかわらず,検出率の向上に若干の効果が見られた.

収録刊行物

  • 自然言語処理

    自然言語処理 20 (3), 335-365, 2013

    一般社団法人 言語処理学会

参考文献 (43)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ