自律サイバー推論システムにおけるBERTモデル導入による状態推定の強化

書誌事項

タイトル別名
  • Enhanced State Estimation by Introducing BERT Models in Autonomous Cyber Reasoning System

抄録

ペネトレーションテストは機器やシステムに対して様々な技術を駆使して侵入を試みることで,対象のセキュリティ上の脆弱性を検査する手法であり,特に機械学習ベースの自律的ペネトレーションテスト技術は,offensive security を実現する重要な手法として,ますます増加,巧妙化するサイバー攻撃への対応策になると目されている.既に Deepexploit 等,様々な機械学習ベースの自律的ペネトレーションテストツールが生み出されている.中でも,訓練データを予め準備しなくても自律的に攻撃手法を獲得できる強化学習によるペネトレーションテスタが注目を集めている.本研究では,従来から多くの提案があるマルコフ決定過程 (MDP) に基づく強化学習モデルではなく,ペネトレーションテストの過程で得られるシステムレスポンスをニューラル自然言語処理技術により解釈して状態を推定しながら次の最適攻撃行動を推定する部分観測マルコフ決定過程に基づく強化学習モデルに注目している.2020 年に発表された LeDeepChef は,テキストベースのダンジョンゲームである Textworld を部分観測マルコフ決定過程 (POMDP) に基づく強化学習で効率的にゴールを見いだすニューラルエージェントを提案している.本論文では,ニューラルエージェントの状態推定を行うモデルに SecBERT を導入したシステムを提案する.本システムを Windows/Linux 等の OS 環境に作用させ,exploit コマンドを行動集合に持たせ実験を行い,従来の GRU モデルに対する優位性を示す.

Penetration testing is a method of testing for security vulnerabilities by attempting to penetrate devices and systems using various techniques. In particular, autonomous penetration testing technology based on machine learning is important for achieving offensive security. The autonomous penetration testing technology based on machine learning is expected to become an important method to realize offensive security and to cope with the increasing and sophisticated cyber attacks. In particular, autonomous penetration testing based on machine learning is an important method to realize offensive security and cope with cyber attacks’ growing number and sophistication. Various machine learning-based autonomous penetration testing tools have already been developed, such as Deepexploit. In particular, penetration testers based on reinforcement learning, which can autonomously acquire attack methods without preparing training data in advance, are attracting attention. This paper focuses on a reinforcement learning model based on a partially observed Markov decision process. The system response obtained in the penetration testing process is interpreted by neural natural language processing techniques to estimate the state of the system and the subsequent optimal attack behavior. LeDeepChef, published in 2020, proposes a neural agent that can efficiently find the goal of Textworld, a text-based dungeon game, by reinforcement learning based on the Partial Observation Markov Decision Process (POMDP). In this paper, we propose a system that introduces SecBERT into the model for neural agent state estimation. The system is tested under Windows/Linux operating systems, with exploit commands in the action set, and its superiority over the conventional GRU model is demonstrated.

収録刊行物

詳細情報

問題の指摘

ページトップへ