- 【Updated on May 12, 2025】 Integration of CiNii Dissertations and CiNii Books into CiNii Research
- Trial version of CiNii Research Automatic Translation feature is available on CiNii Labs
- Suspension and deletion of data provided by Nikkei BP
- Regarding the recording of “Research Data” and “Evidence Data”
A Consideration of JSON format Log File Discrimination using Machine Learning for Automatic Log Collection
Bibliographic Information
- Other Title
-
- ログ収集のための機械学習を用いたJSON形式ログファイル判別の検討
Description
デジタルフォレンジックにおいて,ログファイルを収集する作業は煩わしい.これに対してファイルのバイナリデータに対してfasttextを利用した類似度からテキスト形式のログファイルを自動判別,収集する方法が提案されている.しかし,この手法ではnginxやApacheなどのログ出力形式として利用されるJSON形式のログファイルに対応できない.JSON形式ファイルでは,出力するアプリケーション毎にキーが異なるため,tf-idfのような類似度では分類が難しい.そこで,fasttext,ナイーブベイズ,ランダムフォレスト,SVMのそれぞれのアルゴリズムを用いて類似度を計算し,その傾向について分析する.これにより,ログファイルか否かの判別に適したアルゴリズムについて検討・報告する.
In digital forensics, collecting log files is a difficult task. A method has been proposed to automatically identify and collect text-format log files based on similarity using fasttext for the binary data of the files. However, this method does not support JSON log files, which are used as the log output format for nginx, Apache, etc. In JSON files, the keys are different for each output application, making classification difficult using similarity measures such as tf-idf. Therefore, we investigated similarity measures using each of the algorithms, fasttext, naive Bayes, random forest, and SVM, and investigated and reported on algorithms suitable for identifying log files.
Journal
-
- コンピュータセキュリティシンポジウム2024論文集
-
コンピュータセキュリティシンポジウム2024論文集 1880-1883, 2024-10-15
情報処理学会
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1050302237609662720
-
- Text Lang
- ja
-
- Article Type
- conference paper
-
- Data Source
-
- IRDB