文献标识码: A、
DOI: 10.20044/j.csdg.2097-1788.2022.02.003
引用格式: 凌仕勇,龚锦红. 基于SVM和Word2Vec的Web应用入侵检测系统[J].网络安全与数据治理,2022,41(2):13-19.
0 引言
随着高校信息化的发展,高校应用系统中积累了大量的师生、教学、科研、管理方面的业务数据。而随着各业务系统的对外访问,网络安全问题日趋严重。目前,校园网安全运维主要是通过网络安全产品如防火墙、IDS、IPS等设备来实现,总体效果不佳,一个重要的原因是忽视了日志在校园网管理中的作用。校园网中的网络产品、服务器、应用系统等软硬件运行过程中产生大量的日志,记录了系统运行,使用者、攻击者的访问行为,可以通过对这些日志的综合分析和处理,有效解决校园网运行中遇到的安全问题。
Web入侵检测是针对Web应用的一种入侵检测技术,通过对Web应用的请求分析,检测和识别Web攻击行为。在已有研究中,周勇禄[1]使用Web日志中动态页面的参数值长度、字符分布等数据,建立了基于统一异常的检测模型。Estevez-Tapiador等[2]对日志URL进行了划分,对应到马尔科夫模型的不同状态,使用状态转移矩阵,根据模型达到终态的概率判断日志的合法性。Le[3]将Web入侵的URL根据不同部分进行切割,包括域名、路径、参数等,并对每个部分进行选定特征的提取。Ma[4]等人提取入侵URL中的host等特征,以此进行Web应用入侵威胁检测。Kolar[5]等人则采用词袋模型解决Web威胁入侵的检测问题。
高校信息系统一般分散部署在各个服务器中,导致所产生的日志也比较分散。高凯[6]研究了大数据环境下,采用分布式数据流的四个子系统:数据采集子系统、消息处理子系统、流式计算子系统和数据存储子系统,进行用户大规模日志安全分析。陈付梅等[7-9]介绍了大规模系统的日志模式提炼算法的优化方法。上述研究从不同角度构建了针对Web应用的入侵检测模型或系统,但主要是通过对URL的分析,提取基于文本的统计特征,从而构建分析模型,而没有考虑到POST请求体的数据,且在对文本数据的特征向量构建上,主要以统计特征为主,较少考虑到文本本身的词汇特性。本文主要针对数据中心产生的Web日志进行研究,采用Word2Vec构造特征向量,利用支持向量机进行模型训练,并基于MapReduce并行计算模型,给出了一种海量数据异常入侵检测算法。通过此系统对日志事件进行并行挖掘分析,可以很好地发现安全攻击事件,得出平台整体的安全态势,为数据中心正常运转提供安全保障。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000004853
作者信息:
凌仕勇1,龚锦红2
(1.华东交通大学 网络信息中心,江西 南昌330013;
2.华东交通大学 电气与自动化工程学院,江西 南昌330013)