引言
随着大数据和云计算等信息技术的不断发展和应用,网络攻击方式层出不穷,攻击者往往对特定网络进行匿名攻击,从而导致网络崩溃[1-2]。网络入侵检测作为网络安全的重要组成部分,它是根据网络流量数据以及各种IDS数据判断主机正常行为或异常行为,以便在网络攻击出现时做出相应策略。现有入侵检测方式主要分为传统机器学习和深神经网络,针对入侵检测数据的高维因素,检测算法的精度和效率成为了研究热点。
传统机器学习入侵检测算法模型研究中,Lin等人[3]提出了一种融合了主成分分析与随机森林技术的入侵检测算法,该算法首先通过主成分分析算法对输入的原始数据特征进行高效降维处理,以去除冗余信息并保留关键特征,随后采用随机森林算法对这些降维后的特征进行分类识别。这种结合策略显著提升了检测的准确率,实现了对潜在入侵行为的有效甄别,但忽略了奇异值对特征表达影响因素,进而造成误检、漏检的出现。Wang等人[4]在应对高维数据挑战时,引入了One-R快速属性选择机制来优化随机森林模型。此方法不仅缓解了随机森林在选择属性时因过度随机性导致的效率瓶颈,还有效减少了误检与漏检的发生,提升了系统性能。另一方面,Hu等人[5]则结合Snort的传统机器学习能力与随机森林的离群点检测优势,设计了一种混合入侵检测系统。该系统在保持高检测率的同时,也实现了低误报率,展现了良好的检测效能。然而,值得关注的是,文献[4-5]所提出的方法在特征处理上存在一定的局限性,它们未能充分考虑特征的物理含义,从而限制了通过正则化表达来进一步筛选和优化有效特征的可能性。
在深神经网络应用于入侵检测的领域研究中,Ren等人[6]创新性地结合了KNN算法预处理离散特征,并与多层次随机森林模型相结合,成功在KDD CUP99数据集上高效识别出Probe、U2R、R2L等多种网络攻击类型。另一项研究中,Ren等人[7]则构建了一个融合随机森林与K均值算法的混合入侵检测系统,该系统在提升检测准确性的同时,也保持了较低的误检率。然而,值得注意的是,无论是文献[6]还是文献[7]中的方法,均未充分重视数据中的冗余特征问题,它们主要聚焦于模型精度的提升,却在一定程度上忽视了模型的鲁棒性构建。这意味着,尽管这些模型在特定数据集上表现出色,但在面对非特定或未知数据集时,可能会遭遇误检和错检的风险增加。Gou等人[8]在研究中尝试通过引入随机性机制来减轻冗余特征对随机森林模型检测性能的负面影响,这一策略确实在一定程度上提升了模型的检测效果。然而,这种随机选择特征的方法也伴随着潜在的风险,即有可能在减少冗余特征的同时,不经意地削弱了有效特征的表达力,进而对模型的最终检测结果准确性造成不利影响。
上述研究主要集中在模型检测精度提升,但忽略了特征有效表达不充分和冗余特征干扰等问题。此外,针对入侵检测真实场景下的数据集不平衡问题并未对训练数据占比进行深入对比研究,不能有效衡量检测模型是否具有较强鲁棒性。
基于此,本文提出了一种多粒度级联森林优化算法的网络入侵检测模型,对源数据进行归一化预处理,避免奇异值特征在计算过程种造成误差,然后通过Fisher Score法对特征进行排序选择,从而获得特征子集,将特征子集作为特征数据传输给卷积层,利用卷积计算特性对其特征进行深度挖掘,将挖掘信息通过级联层森林对其分类,进而有效识别复杂多变的网络攻击。实验结果表明,本文算法在入侵检测过程具有较高的准精确率和较低的误检率,相对传统算法有一定优势。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006222
作者信息:
刘学朋,于东升,胡铁娜,李京儒,陈广勇,曲洁
(公安部第三研究所网络安全等级保护中心,北京100142)