自己注意機構を用いたマルウェアの検知手法の提案
書誌事項
- タイトル別名
-
- Detecting malicious strings with self-attention mechanism
説明
実行ファイルから抽出できる可読文字列は,マルウェア解析の補助目的で使用されている.また,近年の自然言語処理技術の発展により,文章の語順を考慮して機械学習に用いることが可能となりつつある.先行研究では,自然言語処理技術を可読文字列に応用し,未知のマルウェアを検知する手法が提案されている.この手法では出現頻度の低い単語を除外し,コーパスを作成することによってマルウェアを検知している.しかしながら,単語の語順を考慮しておらず,検知に貢献した単語は明らかにされていない.そこで本研究では,可読文字列の順序を保ちつつ,自己注意機構を用いたマルウェアの検知手法を提案する. 検証実験では,語順を考慮した提案手法と,単語の出現回数のみを考慮したモデルの精度を,FFRI データセットを用いて比較した.さらに,自己注意機構の重みを分析し,攻撃の検知に貢献している特徴を明らかにした.その結果,語順を考慮した場合の精度の向上は限定的であることを確認した.
The strings extracted from executable files are used for analyzing malware. With the recent developments in natural language processing, machine learning models are learning word order. Applying natural language processing techniques to the strings, a method for detecting malware has been proposed. This method detects malware with a corpus excluding words that occur infrequently. However, previous studies do not focus on the word order of the sentences and the main words that contribute to the classification is not revealed. In this study, we propose a method of detecting malware with self-attention mechanism, that considers word order of the strings. In the experiment, we compared our model with a model considers only the word frequency. Furthermore, we analyzed the weight of the self-attention mechanism and identified features that contribute to the classification. These results confirm that the improvement by considering word order is limited.
収録刊行物
-
- コンピュータセキュリティシンポジウム2022論文集
-
コンピュータセキュリティシンポジウム2022論文集 1020-1027, 2022-10-17
情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050857512396947840
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB