一种基于网络表示学习的网络安全用户发现方法-AET-电子技术应用

一种基于网络表示学习的网络安全用户发现方法

网络安全与数据治理 2022年第1期

刘向宇，燕玮，孟星妤，侯开茂

(华北计算机系统工程研究所，北京100083)

摘要： 发现社交媒体中的网络安全用户对于追踪网络安全动态有重要意义，针对这一特定领域用户的发现，提出了一种新的发现方法。首先利用社交媒体节点间的相互关注关系建立有向关系网络，然后用网络表示学习模型Node2vec生成节点的向量表示，并将收集到的网络安全关键字转化为特征向量，拼接后输入分类算法进行预测。实验结果表明，在社交媒体网络安全数据集上，所提方法的预测准确率优于现有的其他特定领域用户发现算法。

关键词： 网络安全 Node2vec 社交媒体二分类自训练

中图分类号： TP181
文献标识码： A
DOI： 10.20044/j.csdg.2097-1788.2022.01.012
引用格式：刘向宇，燕玮，孟星妤，等. 一种基于网络表示学习的网络安全用户发现方法[J].网络安全与数据治理，2022，41(1)：78-82.

A method of finding cyber security user based on network representation learning

Liu Xiangyu，Yan Wei, Meng Xingyu，Hou Kaimao

(National Computer System Engineering Research Institute of China，Beijing 100083，China)

Abstract： Finding cyber security users in social media is quite important to track network security trends. This paper proposes a method to find users of specific areas. Firstly, a directed network is established by using the mutual attention relationship between social media nodes. Then network representation learning model Node2vec is used to generate the feature vectors of social network nodes. We change the key words collected from blogs and profiles into cyber security feature vectors . Finally, the concatenated two vectors are input into binary classifier to find the cyber security users. Experimental results show that the prediction precision of the proposed method is better than other existing domain specific user discovery algorithms on social media network security data sets.

Key words : cyber security；Node2vec；social media；binary classification；self training

0 引言

发现社交媒体中的网络安全用户可以有效追踪网络安全动态，对网络安全防护具有重要意义。实际上，识别社交网络中的网络安全用户也是对社交网络节点进行分类发现。

现实生活中，人们倾向于与类似的人发展社会关系，所以社交用户的好友会分享更多的属性，如种族、民族、宗教和职业——这就是所谓的“同质性原则”[1]。这导致了在Twitter上相互关注的人通常有共同的话题兴趣，可以通过相互关注关系来推断社交媒体用户的属性。另外，社交用户还具备其他可以获取的数据，如社交文本和用户资料，这些资料构成新的用户属性，也有助于推断用户的兴趣或者职业，与用户的社交关系形成互补。

当前已经有大量的用户分类工作都是基于网络拓扑结构进行节点的分类。比如，网络表示学习方法直接对网络结构特征进行学习提取，将得到的特征用于分类可以取得不错的效果。然而，现有的网络表示学习方法缺乏对社交文本和社交基本资料特征的学习，极大地限制了其分类效果。相对于单纯利用社交网络结构对用户进行分类，当前主流的图神经网络算法创新性地融入了网络节点的其他属性特征，获得了更高的分类准确率。本文针对网络表示学习方法缺乏社交文本特征的问题，通过改进Node2vec[2]方法，使其融合多种网络属性特征而更加有利于分类，从而识别出社交媒体中的网络安全用户。

本文的创新性工作包括：

(1)利用网络表示学习模型Node2vec来进行网络节点的特征表示，将结构特征向量和相应用户节点的文本特征向量进行拼接，形成社交用户节点的向量表示。

(2)标注了部分网络安全用户，初步形成网络安全用户资料库。对于每个用户节点，生成其网络安全文本特征。

(3)利用自监督学习方法进行分类模型的训练样本扩充，提升了分类效果。

结果表明，在已经收集的Twitter数据集上，所提方法的平均识别准确率为96.37%，比现有常用的算法平均高出0.48%～3.67%。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000004615

作者信息：

刘向宇，燕玮，孟星妤，侯开茂

(华北计算机系统工程研究所，北京100083)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容