n-gramによる標的型マルウェアの検知

書誌事項

タイトル別名
  • Detection of Targeted Malware by n-grams

抄録

標的端末のみでしか動作しない標的型マルウェアは検知が困難である.また,標的端末から取得される情報を復号鍵としてペイロードを暗号化することが可能であり,静的解析も困難としている.一方,標的端末から情報を取得するコードに注目すればマルウェアとして分類可能である点も示唆されている.本論文では,この点に着目し,バイナリ n-gram と機械学習を用いて標的型マルウェアを検出する手法を提案する.機械学習にはトレーニングのために多数の検体が必要であるが,検知が困難であることから,標的型マルウェアの実検体を多数入手することができない.そこで,本手法においては,1 つの擬似検体から大量の検体を作成する.一方,バイナリ n-gram の処理には膨大な時間が掛かることが指摘されているため,本研究では接尾辞配列を用いてこれを高速化する既存手法を適用した.17 個の実検体で評価と考察を行った結果,標的端末から取得する情報がユニークである検体の検出はできなかったが,その情報が類似している検体は本手法で完全に分類が可能であった.本手法は,条件によっては未知の標的型マルウェアを検出可能なものである.

Targeted Malware which works only on a targeted device is difficult to be detected. It also prevents static analyses since its payload can be encrypted with key from information on the device. On the other hand, it can be detected when we pay attention to codes which get the information. In this paper, we propose a targeted malware detection method by binary n-grams and machine learning with the codes. However, we cannot acquire many actual targeted malware samples for training of machine learning since the malware is difficult to be detected. Therefore, in our method, we create many samples from one pseudo sample. We also adapted an existing method by suffix arrays for speeding up since preprocessing of binary n-grams requires huge amount of time.We evaluated our method with 17 actual targeted malware samples. As a result, malicious samples with common information acquisition were able to be detected perfectly while those with unique information acquisition were not. The proposed method is effective for detecting unknown targeted malware with common information acquisition.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ