面向CNN的类激活映射算法研究-AET-电子技术应用

面向CNN的类激活映射算法研究

信息技术与网络安全 1期

杨继增，关胜晓

(中国科学技术大学信息科学技术学院，安徽合肥230026)

摘要： 类激活映射(CAM)是卷积神经网络(CNN)解释中的一种直观的方法，通常由CNN的最后一个卷积层生成，可以突出显示输入图片中目标类的不同区域。之前的CAM方法只依赖于最后的卷积层，生成的解释图只能显示模糊的物体位置信息。提出了一种新的方法即分层加权类激活映射方案(SL-CAM)，通过加权合并CNN浅层到深层的信息来生成类激活图。由浅层特征图及其对应的梯度生成的激活图包含详细、准确但噪声大的位置信息；而由深层特征图生成的激活图包含噪声少但模糊的位置信息。在LSVRC2012 Val上的实验表明，SL-CAM多项指标上均优于Grad-CAM、Grad-CAM++和Score-CAM。

关键词： 类激活映射卷积神经网络可视化

中图分类号： TP183
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2022.01.010
引用格式：杨继增，关胜晓. 面向CNN的类激活映射算法研究[J].信息技术与网络安全，2022，41(1)：63-68.

A class activation mapping algorithm for CNN

Yang Jizeng，Guan Shengxiao

(School of Information Science and Technology，University of Science and Technology of China，Hefei 230026，China)

Abstract： Class activation mapping(CAM) is a straightforward method in the interpretation of convolutional neural networks(CNN), usually generated by the last convolution layer of CNN, which can highlight different object regions of the target class. Several previous CAM methods only depend on the final convolution layer, so the class activation map, generated by these, can only show the rough object position information. A new method called score-weighted & layer-wise class activation mapping(SL-CAM) was proposed to generate class activation maps by merging shallow to deep information of CNN. The class activation map generated from the shallow feature map and its corresponding gradient contains detailed and accurate location information with more noise. The activation map generated from the deep feature map contains less noise with rough location information. SL-CAM outperforms Grad-CAM, Grad-CAM++ and Score-CAM on ILSVRC2012 Val.

Key words : class activation mapping；convolutional neural networks；visualization

0 引言

近年来，以CNN为代表的深度学习在计算机视觉领域取得了突出的成果。使用端到端模型训练分类器的CNN可以很好地完成大量的图像处理任务。然而，端到端模型的黑盒属性使CNN能够直接基于输入给出结果。早期的人工智能系统的内部机制主要是逻辑和符号，CNN的解释方法被提出后，可视化成为最直接的策略。换句话说，可视化网络预测结果与输入图片的一些关联区域，如输入特征的重要性或学习的权重，已经成为最直接的方法。基于梯度[1]、基于扰动[2]、基于CAM[3]是三种被广泛采用的方法。

基于梯度的方法通常获取含有大量噪声的低质量的解释图。其步骤如下：首先，通过网络的反向传播得到输入空间的梯度图；其次，对梯度图进行处理得到表示输入图片对特定类输出结果贡献程度的热力图。基于扰动的方法[2，4]通常用扰动噪声改变原始输入来观察模型预测得分的变化。然而，此方法需要花费大量时间来迭代查询模型预测结果。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003938

作者信息：

杨继增，关胜晓

(中国科学技术大学信息科学技术学院，安徽合肥230026)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容