基于挤压激励网络的恶意代码家族检测方法-AET-电子技术应用

基于挤压激励网络的恶意代码家族检测方法

信息技术与网络安全 6期

申高宁1，2，陈志翔3，王辉3，陈姮1，2

(1.闽南师范大学计算机学院，福建漳州363000； 2.数据科学与智能应用福建省高校重点实验室，福建漳州363000； 3.闽南师范大学物理与信息工程学院，福建漳州363000)

摘要： 恶意代码已经成为威胁网络安全的重要因素。基于机器学习的恶意代码检测方法已经取得较好的效果，但面对相似的恶意代码家族，往往效果不佳。对此，提出了一种基于挤压激励网络的检测算法，由卷积神经网络(Convolutional Neural Network，CNN)与挤压和激励(Squeeze-and-Excitation，SE)模块构成。CNN先快速提取恶意代码的图像特征，SE模块对多通道特征图进行全局平均池化，将全局信息压缩，然后通过全连接层自适应学习，并将每个通道特征图赋予不同的权重来表示不同的重要程度，指导激励或抑制特征信息。实验结果表明，该方法相对于传统机器学习方法有更好的检测效果，与深度学习算法相比检测效果也有一定的提升且参数量大大减少。

关键词： 恶意代码机器学习卷积神经网络挤压和激励网络

中图分类号： TP393
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2022.06.001
引用格式：申高宁，陈志翔，王辉，等. 基于挤压激励网络的恶意代码家族检测方法[J].信息技术与网络安全，2022，41(6)：1-9.

A family detection method for malicious code based on squeezed-and-excitation networks

Shen Gaoning1，2，Chen Zhixiang3，Wang Hui3，Chen Heng1，2

(1.School of Computer Science，Minnan Normal University，Zhangzhou 363000，China； 2.Key Laboratory of Data Science and Intelligent Applications，Zhangzhou 363000，China； 3.School of Physics and Information Engineering，Minnan Normal University，Zhangzhou 363000，China)

Abstract： Malicious code has become an important factor threatening cyber security.Machine learning-based malicious code detection methods have achieved good results, but often poorly in the face of similar malicious code families. In this paper, a detection algorithm based on extrusion excitation network was proposed，which consists of Convolutional Neural Network(CNN) and squeeze-and-excitation(SE) module. Fristly，the CNN quickly extracts the image features of the malicious code, and the SE module carries out global average pooling of multi-channel feature map to compress the global information, then learns adaptively through the full connection layer, and weights each channel feature graph to represent different degrees of importance, guiding motivating or suppressing the feature information.The experimental results show that the proposed method has a better detection effect compared with the traditional machine learning methods, and the detection effect is improved and the number of parameters is greatly reduced compared with the deep learning algorithm.

Key words : malicious code；machine learning；convolutional neural network；squeeze and excitation network

0 引言

在过去几年里随着互联网的飞速发展，恶意代码数量也呈爆发式增长。2020年瑞星“云安全”系统共截获病毒样本总量1.48亿个[1]，病毒感染次数为3.52亿次，病毒总体数量比2019年同期上涨43.71%，恶意代码已经成为网络安全的重要威胁之一[2]。恶意软件作者经常会重用代码用来生成具有相似特征的其他恶意变体，而这些恶意变体通常可以归类为同一个恶意软件家族。因此，识别恶意软件家族的能力变得十分重要，通过对恶意代码的分类，可以更好防范恶意代码攻击。

近年来，恶意软件检测分类出现了静态分析和动态分析。静态分析侧重于统计特征，例如API调用、操作码序列等。Wang[3]等人通过提取权限、硬件功能和接收者动作等122个特征，使用多种机器学习分类器进行训练和测试，并使用随机森林(Random Forest)分类器获得较高的分类准确率。动态分析则是使用虚拟的环境来分析恶意应用程序的行为[4]。但是这些技术大多数需要提取大量特征，检测效率不高，对特征的选择需要一些专家知识，并且有一定的主观性。

为了降低特征工程成本和领域专家知识，一些研究人员使用可视化方法来解决恶意软件家族分类问题。例如，Nataraj等人[5]提出把恶意代码二进制文件转化为灰度图，然后利用k近邻算法对恶意代码进行分类，这种方法相比于之前未转换灰度图，直接分类的方法准确率有一定提高，但是该方法用GIST提取图片特征需要耗费大量时间，导致效率不高。

随着深度学习在图像分类领域的快速发展，有学者将深度学习引入到恶意代码检测领域。Choi等人[6]把恶意代码二进制文件转化为灰度图像，运用深度学习的技术，在12 000个样本中达到了95.66%的准确率。Su等人[7]用light-weight DL技术进行恶意代码家族分类，取得94.00%的成绩，但是他们提出的网络只对两类家族进行分类，有一定的局限性。Cui等人利用卷积神经网络在图像分类的出色表现，并分别利用蝙蝠算法[8]和NSGA-Ⅱ算法[9]处理恶意代码样本数量不均的问题，该方法准确率明显高于传统机器学习方法，且算法复杂度较低。随着更深网络的提出，Rezende等人提出将VGG16网络[10]以ResNet网络[11]运用在恶意代码检测分类上，该方法准确率有所提升，但是参数量变得巨大，分类效率有待提升。

基于上述方法产生的问题，本文提出了一种基于卷积神经网络[12]的分类方法SE-CNN，实现恶意代码家族分类。首先将恶意代码的二进制文件转化成灰度图得到灰度图像数据集，然后构建SE-CNN网络模型对灰度图像数据集进行训练，最后实现对恶意代码的检测分类。该方法采用CNN对灰度图像自动提取特征，解决了特征提取慢且耗时的问题；通过结合SE模块自适应学习通道重要程度信息，并赋予特征通道权重，从而激励有用特征信息，同时抑制无用信息，提升了模型分类准确率。实验结果表明，本文方法准确率高于传统机器学习方法，且参数量相较于先进的深度学习方法更低。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000004527

作者信息：

申高宁1，2，陈志翔3，王辉3，陈姮1，2

(1.闽南师范大学计算机学院，福建漳州363000；

2.数据科学与智能应用福建省高校重点实验室，福建漳州363000；

3.闽南师范大学物理与信息工程学院，福建漳州363000)

微信图片_20210517164139.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容