クラスタリングを利用したキーワード抽出アルゴリズムのツイッターデータへの適用例

書誌事項

タイトル別名
  • An Analysis of Twitter Data by Keyword Extraction based on Clustering

抄録

本稿では,クラスタリングを用いて,テキストデータ中の部分的なトピックや話題に対応するキーワードを抽出する手法を,特定の話題に対するツイート群のデータに適用し,どのようなキーワードがどのように取り出され,それが特定の話題の性質や,それに反応した人々の振るまいとどのように関係しているかを考察する.一般のキーワード抽出のように,全体的な特徴を捉えたキーワードとは異なり,自明ではないと考えられる単語を効果的に抽出できるため,より深い考察が可能となっている.取り上げたトピックは企業の炎上に関するものと,北海道の地震に関するものであり,ある種対極的な様相が観察された. キーワード :クラスタリング,キーワード,マイクロブログ, Twitter,SNS An Analysis of Twitter Data by Keyword Extraction based on Clustering Uno Takeaki (National Institute of Informatics, Japan) Hashimoto Takako (Chiba University of Commerce) Abstract : In this paper, we apply our keyword extraction algorithm based on clustering to real world tweet data concerning to specified topics. The use of clusters makes extracted keywords having correspondences to sub-topics in the text data, while the keywords extracted by existing methods are related to the general characteristics of the data. This locality of the keywords enables us to understand more deeply the features of the topics, and the reaction and behaviors of the people who touched the topics at the time. We analyzed the topics of framing of a company and big earthquake at Hokkaido, and the results clarify aspects and features of the topics of which two topics express much differences. Keywords : clustering, keyword, microblog, Twitter, SNS 1.まえがき キーワード抽出は, 自然言語処理の中でも中心的な技術である. 文書を特徴づける複数の単語や動詞を得る, あるいは文書のあらましを理解する,という様な目的に用いることができるし, 多くの文書があるときに, その中の文書の内容がどのような分布になっているのか, というようなことを,ざっくりと理解することに使えたりもする. キーワード抽出の代表的な方法として, TF-IDF[1]がある. これは文書 Xの中に含まれる単語AがXの中でどの程度重要であるかを表す指標である.単語 Aの文書Xにおける頻度を,「単語Aが文書Xに出てくる回数」を,「文書 Xの全単語数」で割ったものとする. TF-IDFは,簡単に言えば,「単語 Aの文書Xにおける頻度」を「単語Aの一般の文書での頻度」で割ったものと考えて良い (正しくは,その logである).つまり一般の状態比べて,文書 Xでどれだけ頻度高くAが現れているか, というものである. 文書 Xの中でTF-IDFの値が大きい単語が,文書 Xのキーワードである,と考えるのである. TF-IDFはシンプルな設計ではあるが,そこそこ良いものを見つける力があり, 広く使われている.しかし, Tweetのような「短い文章」の集合に適用することは難しい. Tweet のような短い文章では,たとえ重要な単語とはいえ,一つの文章に2回以上表れることはめずらしく,逆に「雨の日に限って,選挙の日なんだよなあ」のような文章で「日」が重要,ということになってしまう.つまり, TF-IDFをTwitterのようなマイクロブログ分析に直接的に使用することは難しいのである. これは他のソーシャルメディアでも同様である. 本稿では,我々が開発した,クラスタリングを用いた

In this paper, we apply our keyword extraction algorithm based on clustering to real world tweet data concerning to specified topics. The use of clusters makes extracted keywords having correspondences to sub-topics in the text data, while the keywords extracted by existing methods are related to the general characteristics of the data. This locality of the keywords enables us to understand more deeply the features of the topics, and the reaction and behaviors of the people who touched the topics at the time. We analyzed the topics of framing of a company and big earthquake at Hokkaido, and the results clarify aspects and features of the topics of which two topics express much differences.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ