単語ベースの機械学習モデルによる未知の悪性PowerShellスクリプトの検知手法

書誌事項

タイトル別名
  • Using a Word-based Machine Learning Model to Detect Unknown Malicious PowerShell Script

この論文をさがす

抄録

サイバー攻撃において,攻撃対象の端末にインストールされている正規のツールを利用する傾向が強まっている.特に攻撃ツールとして,Microsoft社が提供するPowerShellを悪用するケースが年々増加しており脅威となっている.先行研究では,文字ベースのディープラーニングを用いた悪性PowerShellコマンドを検知する手法が提案された.提案された手法は,伝統的な自然言語処理および文字ベースでの畳み込みニューラルネットワークを組み合わせた手法である.しかしながらこの手法では,前処理に動的解析を用いており,解析に時間を要する.そこで本研究では,動的解析を用いずに,単語ベースの言語モデルによって悪性および良性のサンプルから特徴ベクトルを作成し,未知のサンプルを分類する手法を提案する.データセットは,HybridAnalysis,AnyRunおよびgithubから入手した良性および悪性のサンプルから作成した.検証実験では,未知のサンプルに対する最大recall値は0.98となった.また,新種のマルウェアファミリを検知できることを確認した.

There is a growing tendency for cybercriminals to abuse legitimate tools installed on the target computers for cyberattacks. In particular, the use of PowerShell provided by Microsoft has been increasing every year and has become a threat. In previous studies, a method to detect malicious PowerShell commands using character-based deep learning was proposed. The proposed method combines traditional natural language processing and character-based convolutional neural network. This method, however, requires dynamic analysis for preprocessing, and thereby requires time. This paper proposes a method to classify unknown PowerShell without dynamic analysis. Our method uses feature vectors extracted from malicious and benign PowerShell scripts using a word-based language model for classification. Our dataset was generated from benign and malicious PowerShell scripts obtained from HybridAnalysis, VirusTotal, and github. Our experiment shows that the maximum recall achieves 0.98 against unknown samples. Furthermore, we confirmed that new malware families could be detected.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ