基于距离正则化的单视图三维重建
信息技术与网络安全
胡茂林,李金龙,胡 涛
(中国科学技术大学 计算机科学与技术学院,安徽 合肥230027)
摘要: 针对从一张物体有限的二维RGB图像信息中还原物体的三维形状信息,提出了基于距离正则化的单视图三维重建。利用二维卷积神经网络(Convolutional Neural Network,CNN)设计图像编码器和三维卷积神经网络设计残差块,再利用残差块为基础设计三维形状生成器,即三维残差生成器。给定一张物体的二维RGB图像,首先使用图像编码器提取RGB图像的语义信息;然后,三维形状生成器使用语义信息,恢复RGB图像中物体的三维形状信息。同时,提出了距离规则化损失,在训练过程中,保证三维物体形状重建质量。实验结果显示,本方法在交并比(Intersection over Union,IoU)评价指标上超过了之前最好的方法。
中图分类号: TP391
文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2021.05.010
引用格式: 胡茂林,李金龙,胡涛. 基于距离正则化的单视图三维重建[J].信息技术与网络安全,2021,40(5):56-61.
文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2021.05.010
引用格式: 胡茂林,李金龙,胡涛. 基于距离正则化的单视图三维重建[J].信息技术与网络安全,2021,40(5):56-61.
Single-view 3D reconstruction based on margin regularization
Hu Maolin,Li Jinlong,Hu Tao
(School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)
Abstract: In order to recover the 3D shape of the object in the input image from the limited information of 2D RGB image, this paper proposes a single image 3D reconstruction method based on a margin regularization loss. This paper uses 2D convolutional neural network(CNN) to design an image encoder and employ 3D CNN to design a special residual block, and then uses residual block to design 3D residual generator. Given a 2D RGB image of an object, firstly, we use our designed image encoder to extract the semantic information of the RGB image; then, the 3D residual generator takes the semantic information as input and recover the 3D shape of the object in the RGB image. At the training phase, this paper proposes a distance regularization loss to ensure the quality of 3D object shape reconstruction during the recovering process. Experiment results demonstrate that the proposed method surpasses the previous best method in the metrics of Intersection over Union(IoU).
Key words : 3D reconstruction;convolutional neural networks;residual block;residual network
0 引言
三维重建是指给定一张或多张RGB图像的情况下重建该RGB图像中物体的三维形状。三维重建已经被探索了几十年,它是计算机视觉领域一个基础性任务之一,拥有大量应用场景,例如,机器人导航、虚拟现实、计算机辅助设计、无人驾驶、医学图像处理等领域。三维重建是一个非常复杂的过程,从二维图像恢复三维形状,恢复缺失的信息往往具有歧义性。为克服三维形状的歧义性,三维重建方法通常需要结合图像信息和先验形状知识。
随着大型数据集的出现,数据驱动的方法一定程度上克服歧义性问题,数据集提供三维形状先验知识。三维重建方法利用CNN在大型数据集进行预测物体三维形状取得了巨大的成功,预测的三维形状可以被归结为三类:体素网格表示[1]、点云表示[2]、网格表示[3]。近年来,大量基于深度学习的方法被提出来进行三维重建,例如,3D-R2N2[4]、Pix2Vox、PSGN[2]和AttSets[5]。CHOY C B[4]率先提出使用长短期记忆网络(Long Short Term Memory,LSTM)[6]来融合不同视角图像的信息,一步一步重建三维物体的形状。PSGN使用点云表示三维形状进行单视图三维重建。Pix2Vox++直接使用CNN融合不同视角图像信息来进行三维重建。AttSets使用一个注意力聚合模块去预测一个权重矩阵作为输入特征的注意力得分。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003552
作者信息:
胡茂林,李金龙,胡 涛
(中国科学技术大学 计算机科学与技术学院,安徽 合肥230027)
此内容为AET网站原创,未经授权禁止转载。