基于多粒度级联森林优化算法的网络入侵检测模型研究-AET-电子技术应用

基于多粒度级联森林优化算法的网络入侵检测模型研究

网络安全与数据治理

刘学朋，于东升，胡铁娜，李京儒，陈广勇，曲洁

公安部第三研究所网络安全等级保护中心

摘要： 针对大规模网络入侵方式层出不穷，为应对多形态下的网络安全威胁，提出一种基于多粒度级联森林优化算法的网络入侵检测模型。首先对原始数据进行预处理，然后融合Fisher Score算法对不同特征信息进行权重选择排序，最后将其排序后的特征信息送入级联森林的卷积层和森林层，对特征信息进行深度表达和分类，从而得到精准的分类结果。经KDD 99数据集进行验证，在不同测试集占比为90%、70%和30%三组实验情况下，分别实现了98.20%、99.00%、99.27%的分类精度。实验结果证明，所提算法能够准确识别多种网络攻击，为现有网络入侵检测提供有效区分依据。

关键词： FisherScore 随机森林级联森林网络入侵

中图分类号：TP391文献标识码：ADOI:10.19358/j.issn.2097-1788.2024.11.002引用格式：刘学朋，于东升，胡铁娜，等.基于多粒度级联森林优化算法的网络入侵检测模型研究［J］.网络安全与数据治理，2024，43（11）：7-12.

Research on network intrusion detection model based on multi-granularity cascaded forest optimization algorithm

Liu Xuepeng, Yu Dongsheng, Hu Tiena, Li Jingru, Chen Guangyong, Qu Jie

Network Security Level Protection Center of the Third Research Institute of the Ministry of Public Security

Abstract： To address the ever-evolving and diverse nature of large-scale network intrusions and the subsequent cybersecurity threats, this paper proposes a network intrusion detection model based on the Multi-Granularity Cascaded Forest (GCForest). The model initially preprocesses raw data, subsequently incorporates the Fisher Score algorithm to rank different feature information by their weights, and ultimately feeds the ranked feature information into the convolutional layer and forest layer of the cascaded forest for deep feature expression and classification, thereby achieving precise classification results. Validation using the KDD 99 dataset demonstrates that under three experimental scenarios with training set proportions of 90%, 70%, and 30%, the model achieves classification accuracies of 98.20%, 99.00%, and 99.27% respectively. The experimental results prove that the proposed algorithm in this paper can accurately identify various network attacks, providing an effective basis for distinguishing and detecting network intrusions in existing systems.

Key words : Fisher score; random forest; cascade forest; network intrusion

引言

随着大数据和云计算等信息技术的不断发展和应用，网络攻击方式层出不穷，攻击者往往对特定网络进行匿名攻击,从而导致网络崩溃［1-2］。网络入侵检测作为网络安全的重要组成部分，它是根据网络流量数据以及各种IDS数据判断主机正常行为或异常行为，以便在网络攻击出现时做出相应策略。现有入侵检测方式主要分为传统机器学习和深神经网络，针对入侵检测数据的高维因素，检测算法的精度和效率成为了研究热点。

传统机器学习入侵检测算法模型研究中，Lin等人［3］提出了一种融合了主成分分析与随机森林技术的入侵检测算法，该算法首先通过主成分分析算法对输入的原始数据特征进行高效降维处理，以去除冗余信息并保留关键特征，随后采用随机森林算法对这些降维后的特征进行分类识别。这种结合策略显著提升了检测的准确率，实现了对潜在入侵行为的有效甄别，但忽略了奇异值对特征表达影响因素，进而造成误检、漏检的出现。Wang等人［4］在应对高维数据挑战时，引入了One-R快速属性选择机制来优化随机森林模型。此方法不仅缓解了随机森林在选择属性时因过度随机性导致的效率瓶颈，还有效减少了误检与漏检的发生，提升了系统性能。另一方面，Hu等人［5］则结合Snort的传统机器学习能力与随机森林的离群点检测优势，设计了一种混合入侵检测系统。该系统在保持高检测率的同时，也实现了低误报率，展现了良好的检测效能。然而，值得关注的是，文献［4-5］所提出的方法在特征处理上存在一定的局限性，它们未能充分考虑特征的物理含义，从而限制了通过正则化表达来进一步筛选和优化有效特征的可能性。

在深神经网络应用于入侵检测的领域研究中，Ren等人［6］创新性地结合了KNN算法预处理离散特征，并与多层次随机森林模型相结合，成功在KDD CUP99数据集上高效识别出Probe、U2R、R2L等多种网络攻击类型。另一项研究中，Ren等人［7］则构建了一个融合随机森林与K均值算法的混合入侵检测系统，该系统在提升检测准确性的同时，也保持了较低的误检率。然而，值得注意的是，无论是文献［6］还是文献［7］中的方法，均未充分重视数据中的冗余特征问题，它们主要聚焦于模型精度的提升，却在一定程度上忽视了模型的鲁棒性构建。这意味着，尽管这些模型在特定数据集上表现出色，但在面对非特定或未知数据集时，可能会遭遇误检和错检的风险增加。Gou等人［8］在研究中尝试通过引入随机性机制来减轻冗余特征对随机森林模型检测性能的负面影响，这一策略确实在一定程度上提升了模型的检测效果。然而，这种随机选择特征的方法也伴随着潜在的风险，即有可能在减少冗余特征的同时，不经意地削弱了有效特征的表达力，进而对模型的最终检测结果准确性造成不利影响。

上述研究主要集中在模型检测精度提升，但忽略了特征有效表达不充分和冗余特征干扰等问题。此外，针对入侵检测真实场景下的数据集不平衡问题并未对训练数据占比进行深入对比研究，不能有效衡量检测模型是否具有较强鲁棒性。

基于此，本文提出了一种多粒度级联森林优化算法的网络入侵检测模型，对源数据进行归一化预处理，避免奇异值特征在计算过程种造成误差，然后通过Fisher Score法对特征进行排序选择，从而获得特征子集，将特征子集作为特征数据传输给卷积层，利用卷积计算特性对其特征进行深度挖掘，将挖掘信息通过级联层森林对其分类，进而有效识别复杂多变的网络攻击。实验结果表明，本文算法在入侵检测过程具有较高的准精确率和较低的误检率，相对传统算法有一定优势。

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000006222

作者信息：

刘学朋，于东升，胡铁娜，李京儒，陈广勇，曲洁

(公安部第三研究所网络安全等级保护中心，北京100142)

Magazine.Subscription.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容