《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 基于SVM和Word2Vec的Web应用入侵检测系统
基于SVM和Word2Vec的Web应用入侵检测系统
网络安全与数据治理 2期
凌仕勇1,龚锦红2
(1.华东交通大学 网络信息中心,江西 南昌330013; 2.华东交通大学 电气与自动化工程学院,江西 南昌330013)
摘要: 高校应用系统中的Web日志数据是系统运维、安全分析的重要来源。针对数据中心产生的Web日志进行研究,同时考虑GET和POST请求的所有数据,采用Word2Vec构造特征向量,利用支持向量机进行模型构建。并基于MapReduce并行计算模型,给出了一种异常入侵检测算法,构建了一套基于Web日志的安全分析平台。系统运行结果表明,该平台可以有效地发现校园网中的异常入侵,检索效率高,能有效提高运维效率和异常排查速度。
中图分类号: TP391
文献标识码: A、
DOI: 10.20044/j.csdg.2097-1788.2022.02.003
引用格式: 凌仕勇,龚锦红. 基于SVM和Word2Vec的Web应用入侵检测系统[J].网络安全与数据治理,2022,41(2):13-19.
Intrusion detection system of Web application based on SVM and Word2Vec
Ling Shiyong1,Gong Jinhong2
(1.Network Information Center,East China Jiaotong University,Nanchang 330013,China; 2.School of Electrical and Automation Engineering,East China Jiaotong University,Nanchang 330013,China)
Abstract: The Web log data in the university application system is an important source of system operation and security analysis. This paper mainly studies the Web log generated by the data center, with considering all data for both GET and POST requests,constructs the feature vector with Word2Vec, and builds the model with support vector machine. Based on MapReduce parallel computing model, an anomaly intrusion detection algorithm is proposed, and a security analysis platform based on Web log is constructed. The system operation results show that the platform can effectively find abnormal intrusion in the campus network, with high retrieval efficiency, and can effectively improve the operation and maintenance efficiency and abnormal troubleshooting speed.
Key words : Support Vector Machine(SVM);Word2Vec;MapReduce;intrusion detection

0 引言

随着高校信息化的发展,高校应用系统中积累了大量的师生、教学、科研、管理方面的业务数据。而随着各业务系统的对外访问,网络安全问题日趋严重。目前,校园网安全运维主要是通过网络安全产品如防火墙、IDS、IPS等设备来实现,总体效果不佳,一个重要的原因是忽视了日志在校园网管理中的作用。校园网中的网络产品、服务器、应用系统等软硬件运行过程中产生大量的日志,记录了系统运行,使用者、攻击者的访问行为,可以通过对这些日志的综合分析和处理,有效解决校园网运行中遇到的安全问题。

Web入侵检测是针对Web应用的一种入侵检测技术,通过对Web应用的请求分析,检测和识别Web攻击行为。在已有研究中,周勇禄[1]使用Web日志中动态页面的参数值长度、字符分布等数据,建立了基于统一异常的检测模型。Estevez-Tapiador等[2]对日志URL进行了划分,对应到马尔科夫模型的不同状态,使用状态转移矩阵,根据模型达到终态的概率判断日志的合法性。Le[3]将Web入侵的URL根据不同部分进行切割,包括域名、路径、参数等,并对每个部分进行选定特征的提取。Ma[4]等人提取入侵URL中的host等特征,以此进行Web应用入侵威胁检测。Kolar[5]等人则采用词袋模型解决Web威胁入侵的检测问题。

高校信息系统一般分散部署在各个服务器中,导致所产生的日志也比较分散。高凯[6]研究了大数据环境下,采用分布式数据流的四个子系统:数据采集子系统、消息处理子系统、流式计算子系统和数据存储子系统,进行用户大规模日志安全分析。陈付梅等[7-9]介绍了大规模系统的日志模式提炼算法的优化方法。上述研究从不同角度构建了针对Web应用的入侵检测模型或系统,但主要是通过对URL的分析,提取基于文本的统计特征,从而构建分析模型,而没有考虑到POST请求体的数据,且在对文本数据的特征向量构建上,主要以统计特征为主,较少考虑到文本本身的词汇特性。本文主要针对数据中心产生的Web日志进行研究,采用Word2Vec构造特征向量,利用支持向量机进行模型训练,并基于MapReduce并行计算模型,给出了一种海量数据异常入侵检测算法。通过此系统对日志事件进行并行挖掘分析,可以很好地发现安全攻击事件,得出平台整体的安全态势,为数据中心正常运转提供安全保障。




本文详细内容请下载:https://www.chinaaet.com/resource/share/2000004853




作者信息:

凌仕勇1,龚锦红2

(1.华东交通大学 网络信息中心,江西 南昌330013;

2.华东交通大学 电气与自动化工程学院,江西 南昌330013)


微信图片_20210517164139.jpg

此内容为AET网站原创,未经授权禁止转载。