基于BERT-LSTM模型的WebShell文件检测研究
网络安全与数据治理
邓全才,徐怀彬
河北建筑工程学院信息工程学院
摘要: 针对基于传统规则的WebShell文件检测难度大,采用文本分类的思想,设计了一种基于BERT-LSTM模型的WebShell检测方法。首先,对现有公开的正常PHP文件和恶意PHP文件进行清洗编译,得到指令opcode码;然后,通过变换器的双向编码器表示技术(BERT)将操作码转换为特征向量;最后结合长短期记忆网络(LSTM)从文本序列角度检测特征建立分类模型。实验结果表明,该检测模型的准确率为98.95%,召回率为99.45%,F1值为99.09%,相比于其他模型检测效果更好。
中图分类号:TP309;TP393文献标识码:ADOI:10.19358/j.issn.2097-1788.2024.04.004
引用格式:邓全才,徐怀彬.基于BERT-LSTM模型的WebShell文件检测研究[J].网络安全与数据治理,2024,43(4):24-27.
引用格式:邓全才,徐怀彬.基于BERT-LSTM模型的WebShell文件检测研究[J].网络安全与数据治理,2024,43(4):24-27.
Research on WebShell file detection based on BERT-LSTM model
Deng Quancai,Xu Huaibin
College of Information Engineering,Hebei University of Architecture
Abstract: Aiming at the difficulty of WebShell file detection based on traditional rules, a WebShell detection method based on BERT-LSTM model is designed using the idea of text classification. Firstly, the existing publicly available normal PHP files and malicious PHP files are cleaned and compiled to get the instruction opcode code; then, the opcode is converted into a feature vector by the bi-directional encoder representation technique (BERT) of the transformer; finally, the classification model is built by combining with the long-short-term memory network (LSTM) to detect the features from the perspective of text sequence. The experimental results show that the detection model has an accuracy of 98.95%, a recall of 99.45%, and an F1 value of 99.09%, which is better compared to other models for detection.
Key words : BERT;LSTM;WebShell;PyTorch
引言
随着互联网技术的快速发展,Web应用在电子商务、教育、社交网络等众多领域已成为人们日常生活和工作中必不可缺少的一部分,但是针对Web服务的攻击层出不穷,Web安全的重要性日益剧增。根据国家互联网应急中心发布的《2021年上半年我国互联网网络安全监测数据分析报告》[1],虽然较之前我国被植入后门的网站有大幅的减少,但是还是有1.4万个网站被植入WebShell后门,数量仍然巨大。大部分Web应用都具有文件上传功能,如果网站对上传的文件没有进行严格的文件格式检测,那么黑客就可以上传WebShell文件到服务器,对其进行解析后可实现对服务器的控制。WebShell本质是一种由PHP、ASP、NET、JSP等编程语言编写的恶意脚本,该恶意脚本拥有获取服务器信息、操作文件和数据库、运行系统命令等功能[2]。由于其通信方式与访问普通网页相同,因此不会被防火墙拦截,隐蔽性极强。因此,对服务器上的WebShell文件进行有效检测,可以防范黑客的远程控制,保障Web应用稳定运行。目前,WebShell拥有众多的变体、高度简练的代码以及多种混淆和加密技术的应用,与传统的规则检测和流量检测方法相比,它对文件检测方法影响较小,所以文件检测方法更具优越性。因此,深入研究WebShell文件的检测技术显得尤为关键。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000005964
作者信息:
邓全才,徐怀彬
(河北建筑工程学院信息工程学院,河北张家口075000)
此内容为AET网站原创,未经授权禁止转载。