《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 基于Canopy-Kmeans算法的电力企业流量数据分析研究
基于Canopy-Kmeans算法的电力企业流量数据分析研究
信息技术与网络安全 1期
黄冠杰
(对外经济贸易大学 统计学院,北京100105)
摘要: 针对电力企业关键信息基础设施大量业务数据易遭受网络攻击的现象,基于各业务信息系统下已有的网络安全设备,通过辅助设备采集流量数据,采用Canopy-Kmeans算法进行数据分析研究。首先通过实验证明了Canopy-Kmeans算法在处理流量数据时,相比传统K-means算法,具有更好的聚类效果,准确率提高约11%;然后以采集到的电力关键业务系统的流量数据为基础,基于Canopy-Kmeans算法进行挖掘分析实验,完成相同类型流量数据的聚类,分析出攻击流量与业务流量的特征项,排除部分误报信息,合理开展网络安全防护工作。
中图分类号: TP391.1
文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2022.01.003
引用格式: 黄冠杰. 基于Canopy-Kmeans算法的电力企业流量数据分析研究[J].信息技术与网络安全,2022,41(1):18-22.
Research on electric power enterprise flow data analysis based on Canopy-Kmeans algorithm
Huang Guanjie
(School of Statistics,University of International Business and Economics,Beijing 100105,China)
Abstract: Aiming at the phenomenon that a large number of business data of the key information infrastructure of electric power enterprises are vulnerable to network attacks, based on the existing network security equipment under each business information system, the flow data is collected through auxiliary equipment, and Canopy-Kmeans algorithm is used for data analysis and research. Firstly, through experiments, it is proved that the Canopy-Kmeans algorithm has a better clustering effect than the traditional K-means algorithm when processing flow data, and the accuracy rate is increased by about 11%. Then, the collected flow data of the power key business system is used,mining and analysis experiments are conducted based on the Canopy-Kmeans algorithm to complete the clustering of the same type of traffic data, analyze the characteristic items of attack traffic and business traffic, eliminate some misreporting information, and carry out network security protection work reasonably.
Key words : electricity;flow collection;Canopy-Kmeans;clustering;flow data analysis

0 引言

随着信息化与工业化的深度融合,各式各样的信息系统得到了广泛应用,信息安全问题不断涌现,关于信息网络的攻防战也愈演愈烈。近几年,国际上不法组织频繁攻击电力企业,层出不穷的网络攻击可能会导致系统出现故障,造成网络瘫痪,严重时造成大范围较长时间的电网故障,产生巨大影响和危害。电力系统作为现代社会的关键信息基础设施之一,其产生的大量业务数据及操作数据,也就自然成为了网络攻击的重点目标[1]。建立健全的电力数据分析体系,助力电力企业识别异常流量,保障电力数据安全迫在眉睫。

目前已有部分企业和专家针对电力数据的网络安全进行了研究,高翔[2]等人采用灰色关联分析和支持向量机算法对电力信息系统网络安全进行态势评估;李群[3]等人提出一种基于“聚类+分类”的恶意攻击检测方法,对流量预处理结果进行聚类,基于CART决策树对攻击簇实现分类;高鹏[4]等人采用国产密码、量子密钥分发和区块链技术对电力终端和数据进行保护;刘川[5]等人基于云计算平台和SDN技术搭建了一体化电力数据安全防护框架,用于身份认证、攻击防范、入侵检测。

但目前大部分电力企业对于收集到的流量数据的挖掘和综合分析明显还不够。若要合理地进行数据分析并分类治理,首先要做到电力企业流量数据的充分采集,通过对采集到的数据进行ETL(Extract-Transform-Load,抽取-转换-加载)、挖掘和分析[6-7],最终将分析结果应用于实际安全运维中,做到精准治理。本文以某电力企业的实际运行环境为例,首先简述本文所需的流量数据的数据来源及采集方式,得到其各业务系统下已有的网络安全设备中的流量数据,然后分别利用传统K-means算法与Canopy-Kmeans算法进行流量数据聚类分析,挖掘出攻击流量与业务流量的特征项,并排除部分误报信息。本研究对合理开展网络安全防护工作具有指导意义。


本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003931




作者信息:

黄冠杰

(对外经济贸易大学 统计学院,北京100105)


此内容为AET网站原创,未经授权禁止转载。