文献标识码: A
DOI:10.16157/j.issn.0258-7998.222725
中文引用格式: 雷根华,王蕾,张志勇. 基于Light-BotNet的激光点云分类研究[J].电子技术应用,2022,48(6):84-88,97.
英文引用格式: Lei Genhua,Wang Lei,Zhang Zhiyong. Research on laser point cloud classification based on Light-BotNet[J]. Application of Electronic Technique,2022,48(6):84-88,97.
0 引言
大多的深度学习点云分类方法都是采用卷积层与池化层交替实现的,卷积层中的神经元仅与上一层的部分区域相连接,学习局部特征,在点云数据特征提取时容易丢失部分特征,从而导致分类精度下降等问题。而Transform的提出则带来了一种新的思路,主要利用自我注意机制提取内在特征[1-3]。Transform最初应用在自然语言处理(NLP)领域,并且取得了重大的成功,受到NLP中Transformer功能的启发,研究人员开始将Transformer应用在计算机视觉(CV)任务。研究发现CNN曾是视觉应用的基本组件[4-5],但Transformer正在显示其作为CNN替代品的能力。Chen等人[6]训练序列变换器,以自回归预测像素,并在图像分类任务上与CNN取得竞争性结果。卷积操作擅长提取细节,但是在大数据量的大场景三维点云数据分类任务中,要掌握三维点云的全局信息往往需要堆叠很多个卷积层,而Transform中的注意力善于把握整体信息,但又需要大量的数据进行训练。
BotNet[7]网络是伯克利与谷歌的研究人员在Convolution+Transformer组合方面一个探索,它采用混合方式同时利用了CNN的特征提取能力、Transformer的内容自注意力与位置自注意力机制,取得了优于纯CNN或者自注意力的性能,在ImageNet中取得了84.7%的精度。将CNN与Transform结合起来,达到取长补短的效果。BoTNet与ResNet[8]网络框架的不同之处在于:ResNet[8]框架在最后3个bottleneck blocks中使用的是3×3的空间卷积,而BotNet框架则是采用全局自我注意替代空间卷积。带自注意力模块的Bottleneck模块可以视作Transformer模块。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000004426。
作者信息:
雷根华1,王 蕾1,2,张志勇1
(1.东华理工大学 信息工程学院,江西 南昌330013;
2.江西省核地学数据科学与系统工程技术研究中心,江西 南昌330013)