基于加权判别随机邻域嵌入的故障特征提取算法
信息技术与网络安全 12期
夏丽莎1,刘 兵2
(1.上海理工大学 管理学院,上海200093;2.武汉科技大学 信息工程学院,湖北 武汉430081)
摘要: 针对大数据维数高、非线性强、噪声敏感、故障特征信息冗余、部分历史数据类别标记信息可获取等特点,对适用于非线性数据的t-SNE无监督流形学习方法进行改进,提出一种基于加权判别随机邻域嵌入的故障特征提取算法。在原始高维空间和相应的低维子空间定义包含类别信息的数据相似度,使用Manhattan距离作为度量方式以增大数据相对距离差,基于距离远近关系进行相似度加权,由此充分利用类别标记约束指导降维,使得类间更分散而类内更紧凑。结合KNN方法的UCI仿真数据集分类实验与KDD99网络故障诊断实验,表明该改进故障特征提取算法能够实现更有效的故障诊断。
中图分类号: TP277
文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2021.12.005
引用格式: 夏丽莎,刘兵. 基于加权判别随机邻域嵌入的故障特征提取算法[J].信息技术与网络安全,2021,40(12):26-31,39.
文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2021.12.005
引用格式: 夏丽莎,刘兵. 基于加权判别随机邻域嵌入的故障特征提取算法[J].信息技术与网络安全,2021,40(12):26-31,39.
Fault feature extraction method based on weighted discriminative stochastic neighbor embedding
Xia Lisha1,Liu Bing2
(1.School of Business,University of Shanghai for Science and Technology,Shanghai 200093,China; 2.School of Information Science and Engineering,Wuhan University of Science and Technology,Wuhan 430081,China)
Abstract: In this paper, considering the high dimensionality, strong non-linearity, noise sensitivity, fault feature information redundancy and category label accessibility for big data, a novel method named Weighted Discriminative Stochastic Neighbor Embedding(WDSNE) is proposed for fault features extraction. This WDSNE method is an improvement based on the t-SNE unsupervised manifold learning method for non-linear data. Firstly, the data similarity between the original high-dimensional space and corresponding low-dimensional subspace is defined together with category information. Secondly, the Manhattan distance is selected as the distance measure in order to enhance the relative distance difference. Thirdly, the weighted data similarity is re-defined according to the Manhattan distance distribution. As a result, the class label information can be fully utilized as constraints to guide dimensionality reduction. This will make the inter-class more decentralized and the intra-class more compact. Experiments based on both UCI dataset and KDD99 network fault dataset demonstrate the diagnosis effectiveness of the improved fault features extraction method.
Key words : category information;stochastic neighbor embedding;weighted distance;fault features extraction
0 引言
随着互联网等新一代信息技术在各领域的融合创新,大数据成为行业智能化的关键内容,对相应技术及应用具有重要推动作用。在故障诊断领域,这些实时产生的大数据能提供有力依据,但同时往往伴随维数灾难,导致计算复杂度高、存储量大和算法性能衰减等问题产生,成为影响效果的绊脚石,需要借助一系列特征提取方法进行数据降维预处理,将高维空间数据投影至低维子空间,从而降低数据冗余度,提升故障诊断效率。
早期的特征提取方法基于线性假设,即假设数据来源于全局线性空间且变量间相互独立,以主成分分析、独立元分析、多维尺度方法、线性判别分析为典型代表。其中主成分分析方法以最小化特征信息丢失为目标,适用于呈高斯分布的原始数据;独立元分析方法以最大化属性独立性为目标,可以处理非高斯分布的原始数据;多维尺度方法基于样本相似度低维可视化,与主成分分析和线性判别分析同属于无监督特征提取方法;线性判别分析方法以提高分类准确率为目标,适用于处理高斯分布数据,隶属有监督特征提取方法。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003892
作者信息:
夏丽莎1,刘 兵2
(1.上海理工大学 管理学院,上海200093;2.武汉科技大学 信息工程学院,湖北 武汉430081)
此内容为AET网站原创,未经授权禁止转载。