カテゴリ分類と時系列情報に基づくブログスパム判定手法の提案

書誌事項

タイトル別名
  • カテゴリ ブンルイ ト ジケイレツ ジョウホウ ニ モトズク ブログ スパム ハンテイ シュホウ ノ テイアン
  • Proposal for Detection Method of Blog Spam Based on Categorization and Time Series Information
  • セキュリティ/危機管理

この論文をさがす

抄録

近年,誰もが気軽に情報発信を行う手段として,ブログ(blog)が注目されている.ブログでは,コメントを用いた情報交換やトラックバックを通じた関連情報の取得が容易である.しかし,それらの機能を対象として,広告や他サイトへの誘導を目的とするスパム投稿の増加が問題となっていることから,投稿のスパム判定を効果的に行うフィルタリング手法が求められている.既存研究では,メールのフィルタリングにおいて,スパムに出現する単語の特徴からスパム判定を行うベイジアンフィルタの研究が成果をあげている.しかし,これをブログに適用した場合,評価値を更新しスパム判定精度を維持するための長期的な人的コストが必要となる問題と,ブログ上の出現単語数の多さからすべての単語の相対的な出現回数が少なくなるためスパム判定の精度が低下するという問題がある.さらに,ブログ上の出現単語が時系列によって変化する点も考慮する必要がある.そこで,本研究では,これらの課題に対して,Web から自動的に取得した情報を用いてスパム判定の評価値を自動更新する手法,単語の相対的な出現回数の少なさに対応するため各単語の評価値をカテゴリ別に算出する手法と時系列情報から単語のスパム確率を補正する手法を用いることで,ブログスパムに適した判定手法の提案を目指す.評価実験では,上述した提案手法を用いた場合と用いなかった場合の比較を行い,提案手法の有用性を実証する.

Recently, a blog is well known as a tool for transmitting information easily. However, as the blog spam increases, the method of filtering spam is required to be efficient. In early researches, the method for detecting spam mail with Bayesian filter detects the spam from a characteristic of spam words appeared in spam mails with a high degree of accuracy. However, there are some problems to apply the Bayesian filter for the blog spam detection. First, it takes a lot of man-hours to keep high accuracy continuously. Second is to decrease the accuracy of the spam detection because there are too many various words in blog. Furthermore, we have to consider an appearance time of each word. Therefore, in this paper, we acquire information to update the judgment information automatically and calculate spam probability of words with every category to cope with these problems. In addition, we use the time series information to revise spam probability of words to cope with the problem changing an appearance words on time. With these countermeasures, we propose a method for detecting a new blog spam. With comparative experiments, the present method is better adapted to any existing methods.

収録刊行物

被引用文献 (2)*注記

もっと見る

参考文献 (20)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ