一种利用类别显著性映射生成对抗样本的方法-AET-电子技术应用

一种利用类别显著性映射生成对抗样本的方法

信息技术与网络安全

叶启松，戴旭初

(中国科学技术大学网络空间安全学院，安徽合肥230026)

摘要： 如果对抗样本的迁移性越强，则其攻击结构未知的深度神经网络模型的效果越好，所以设计对抗样本生成方法的一个关键在于提升对抗样本的迁移性。然而现有方法所生成的对抗样本，与模型的结构和参数高度耦合，从而难以对结构未知的模型进行有效攻击。类别显著性映射能够提取出样本的关键特征信息，而且在不同网络模型中有较高的相似度。基于显著性映射的这一特点，在样本生成过程中，引入类别显著性映射进行约束，实验结果表明，该方法生成的对抗样本具有较好的迁移性。

关键词： 深度学习安全对抗样本迁移性

中图分类号： TP181
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2021.06.002
引用格式：叶启松，戴旭初. 一种利用类别显著性映射生成对抗样本的方法[J].信息技术与网络安全，2021，40(6)：9-14.

An adversarial example generation method based on class activation map

Ye Qisong，Dai Xuchu

(School of Cyberspace Security，University of Science and Technology of China，Hefei 230026，China)

Abstract： The adversarial examples, if their transferability is stronger, will be more effective to attack models with unknown structure. Therefore, a key to design adversarial examples generation method is to improve the transferability of adversarial examples. However, the existing method for generating adversarial examples are highly coupled with the structure and parameters of the local model, which make the generated adversarial examples difficult to attack other models. The class activation map can extract the key feature information of the example, and it has high similarity in different neural network models. Based on this observation, the class activation map is used to constrain the process of example generation. Experimental results show that the adversarial examples generated by this method have good transferability.

Key words : deep learning；security；adversarial example；transferability

0 引言

深度学习技术在计算机视觉、语音识别、自然语言处理等各个领域有着广泛的应用，然而有研究表明，深度神经网络具有一定的脆弱性[1]，该脆弱性使得深度神经网络容易受到攻击，这一问题引起了广泛的重视。对抗样本攻击是攻击深度神经网络的主要方法，该方法通过对原样本添加微小的、不可察觉的扰动生成对抗样本，使得深度神经网络对该样本做出错误的预测。

对抗样本的迁移性指针对结构已知的深度神经网络模型生成的对抗样本，能使得结构未知的深度神经网络模型对该样本做出错误预测。如果对抗样本有更好的迁移性，其就能更好地攻击结构和参数未知的模型，这也是利用对抗样本进行攻击的主要应用场景。攻击者在拥有深度神经网络模型的结构和参数信息的前提下进行的对抗样本攻击，称为在白盒条件下的对抗样本攻击。现有的白盒条件下的对抗样本攻击方法虽然有较高的攻击成功率，但是其生成的对抗样本的迁移性较差，在主要的应用场景中并不适用。迁移性差的主要原因在于，这类方法所生成的对抗样本与模型的结构和参数高度耦合，其扰动难以对结构和参数不同的其他模型进行有效的干扰。迁移性差的这一缺点在目标神经网络引入了防御方法时表现得更为明显。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003593

作者信息：

叶启松，戴旭初

(中国科学技术大学网络空间安全学院，安徽合肥230026)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容