基于改进Stacking集成分类算法的用户用电信息异常识别
2023年电子技术应用第8期
闫相伟,宋国壮,刘怡豪
(重庆邮电大学 通信与信息工程学院,重庆 400065)
摘要: 随着电力用户信息采集系统的发展,更丰富的用户用电信息被用于用户用电信息异常的识别。基于FDI攻击进行虚假数据注入,构造用户用电信息异常数据集,并提出了一种基于召回率的改进Stacking集成分类算法。该算法采用K-近邻算法(k-Nearest Neighbors,KNN)、随机森林模型(Random Forests,RF)、支持向量机(Support Vector Machine,SVM)以及梯度决策树(Gradient Boosting Decision Tree,GBDT)作为Stacking结构的基分类模型;采用逻辑回归(Logistic Regression,LR)作为Stacking结构的元分类模型。并基于召回率为基分类模型的输出结果进行权值赋值,从而作为元分类模型的输入数据集。通过实验验证,所提的基于召回率的改进Stacking集成分类算法相比于传统Stacking集成分类算法拥有更高效的分类性能。
中图分类号:TP3-0 文献标志码:A DOI: 10.16157/j.issn.0258-7998.223699
中文引用格式: 闫相伟,宋国壮,刘怡豪. 基于改进Stacking集成分类算法的用户用电信息异常识别[J]. 电子技术应用,2023,49(8):13-18.
英文引用格式: Yan Xiangwei,Song Guozhuang,Liu Yihao. Abnormal identification of user electricity consumption information based on improved stacking integrated classification algorithm[J]. Application of Electronic Technique,2023,49(8):13-18.
中文引用格式: 闫相伟,宋国壮,刘怡豪. 基于改进Stacking集成分类算法的用户用电信息异常识别[J]. 电子技术应用,2023,49(8):13-18.
英文引用格式: Yan Xiangwei,Song Guozhuang,Liu Yihao. Abnormal identification of user electricity consumption information based on improved stacking integrated classification algorithm[J]. Application of Electronic Technique,2023,49(8):13-18.
Abnormal identification of user electricity consumption information based on improved stacking integrated classification algorithm
Yan Xiangwei,Song Guozhuang,Liu Yihao
(School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China)
Abstract: With the development of power user information collection system, richer user electricity consumption information is used for the identification of user electricity consumption information anomalies. In this paper, a false data injection based on the FDI attack is performed to construct a dataset of user electricity consumption information anomalies, and an improved stacking integrated classification algorithm based on recall is proposed. K-nearest neighbors algorithm (KNN), random forest model (RF), support vector machine (SVM) and gradient decision tree (GBDT) are used as the scheme of base classification model of the stacking structure. Logistic regression (LR) is used as a meta-classification model of the stacking structure. The output of the basic classification model is weighted based on the recall rate, which is used as the input data set of the meta-classification model. The proposed improved stacking classification algorithm based on recall is shown to be more efficient than the traditional stacking classification algorithm.
Key words : user electricity consumption information;anomaly identification;improved stacking integrated classification algorithm;FDI
0 引言
近年来,随着电力用户信息采集系统的发展和普及,积累了大量高价值的用户用电数据[1-2]。针对因为智能电表因自然不可抗力导致的损坏、用户恶意篡改或通信网络受到攻击而导致的用户用电信息异常,建立高效的异常识别模型,减少人力排查工作量,降低经济损失,被愈发重视[3]。
在现有的基于机器学习的用电信息异常检测中,多数学者倾向于通过提取样本的特征,利用机器学习模型挖掘出特征与标签之间隐藏的规律[4]。文献[5]提出了DT与SVM的组合模型,将DT的输出用来训练SVM分类器,达到了比较理想的结果。为了突破单一机器学习模型分类性能上限低的情况,文献[6]提出了基于ISSA-RF的集成学习方法,有效提高了异常检测的准确性。文献[7]基于Stacking集成学习策略,按时间多维度拆解用户日用电量指标,验证了所提模型的有效性。
基于Stacking集成分类算法,文中提出用电信息异常检测框架。以异常产生原因紧密相关的电气指标为基础,通过6种FDI攻击方式生成异常数据集并提取特征,通过实验验证了Stacking集成分类算法效果高于单个基分类器。并且提出了一种基于召回率的改进Stacking集成分类算法,通过实验证明了其有效提升了传统Stacking集成分类算法的分类性能。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005496
作者信息:
闫相伟,宋国壮,刘怡豪
(重庆邮电大学 通信与信息工程学院,重庆 400065)
此内容为AET网站原创,未经授权禁止转载。