Evaluation of Embedding Layer Manipulation Backdoor Attack Resistance on Natural Language Processing Based Malicious URL Query Detection Model

Bibliographic Information

Other Title
  • 自然言語処理を用いた悪性URLクエリ検知に対する埋め込み層変更バックドア攻撃の攻撃耐性評価

Description

近年のサイバーセキュリティにおいて機械学習の応用が期待されているが,バックドア攻撃などの中毒攻撃の脆弱性が問題視されている.バックドア攻撃とは中毒攻撃のうち,推論モデル本来の精度を損なわずに,特定の入力に対してのみモデル本来の推論とは違った結果を出力をさせる攻撃である.そのため,バックドア攻撃が施されたモデルを悪性検知アルゴリズムの構成要素として用いた場合に,攻撃者に悪性検知を回避される危険がある.そこで本研究では,機械学習型WAFの悪性URLクエリ検知機能において,BERTによる自然言語処理を用いた場合のバックドア攻撃リスクを確かめた.具体的には,事前学習データにトリガを追加しBERTモデルの埋め込み層を編集することによるバックドア攻撃を実施した後,トリガなし悪性URLクエリ検知精度とトリガ付き悪性URLクエリ通過率を調査した.その結果,BERTを用いた悪性URLクエリ検知機能に対してバックドア攻撃の危険性が示された.サイバーセキュリティにおいて,事前学習済みパラメータを用いた推論モデルを構築する際は,バックドア攻撃耐性評価が悪性URLクエリ検知ベースの本評価に限らず重要である.

Recently, many studies have focused on how machine learning can be integrated into cybersecurity. Still, there are some vulnerabilities called poisoning attacks such as backdoor attacks have become an issue. When an attacker conducts a backdoor attack on a malicious detection model, it behaves as the original clean model, but only specific inputs with a trigger confuse the output. Therefore, there is a threat that an attacker can avoid malicious detection if the model is poisoned. Consequently, We conducted the risk of backdoor attacks with a BERT-based malicious URL query detection model. Concretely, we perform a backdoor attack by adding some triggers to the training data and manipulating the embedding layer of the pre-trained model, then we investigated the clean data performance with untriggered malicious URL queries and the label flip rate with triggered malicious URL queries. The results showed the BERT-based malicious URL query detection has a vulnerability to the backdoor attack. When building deep learning models with pre-trained parameters for security purposes, backdoor attack resistance assessment is important not only for this URL-queries-based assessment.

Journal

Details 詳細情報について

Report a problem

Back to top