文献标识码: A
DOI:10.16157/j.issn.0258-7998.190950
中文引用格式: 赵淑欢. 基于深浅特征融合的人脸识别[J].电子技术应用,2020,46(2):28-31,35.
英文引用格式: Zhao Shuhuan. Fusion of deep and shallow features for face recognition[J]. Application of Electronic Technique,2020,46(2):28-31,35.
0 引言
人脸识别是模式识别和机器学习领域研究热点之一,实际图像中存在的遮挡、光照、姿势、年龄等变化是人脸识别在实际应用中遇到的主要挑战。
传统算法是从图像中进行特征选择和提取,降低复杂度,提高效率。特征选择和特征提取都被视为子空间学习算法,因这些算法均是在一个新空间找到原始高维数据的低维表示。
最著名子空间学习法有主成分分析(Principal Component Analysis,PCA)[1],该算法学习一个投影以保留数据的主要能量。由于其在数据重构和能量保存方面的性能良好,因此在数据处理中PCA常作为数据的预处理技术。研究人员提出一些基于PCA的改进算法,以进一步提高PCA解决人脸识别问题的性能[2]。因PCA算法不能保留数据的几何结构,研究人员提出LPP(Locality Preserving Projection)[3]、SPP(Sparsity Preserving Projections)[4]、NPE(Neighborhood Preserving Embedding)[5]。尽管这些算法在特征提取上各有优点,但因其提取的特征缺乏判别能力[6],故不适用于分类问题。
LDA(Linear Discriminant Analysis)是模式分类中常用提取判别性特征的算法之一[7]。LDA利用标签信息学习判别性投影矩阵,最大化类间距离,同时最小化类内距离,以此提高分类准确度。郝静静等人[8]结合PCA与LDA算法优势提高人脸识别性能。LDA还有很多变形以提高性能,例如:OLDA(Orthogonal LDA)[9]、ULDA(Uncorrelated LDA)[10]、2DLDA(2-Dimensional LDA)[11]。Wen Jie等人[12]提出一种鲁棒稀疏LDA算法(Robust Sparse Linear Discriminant Analysis,RSLDA),提取的特征对噪声和投影维数具有更强的鲁棒性。
针对人脸中特定问题,研究人员提出各种对应算法,例如:为去除光照影响,文献[13]提出一种光照正则化方法,引入了色度空间的概念;Hu Changhui等人[14]提出一种新的高频特征和一种基于高频的稀疏表示分类用于处理不同光照条件下的单样本人脸识别;Du Lingshuang等人[15]用基于核范数的误差模型描述测试样本中的遮挡和污损;欧阳宁等人[16]将多种算法融合提出人脸图像光照预处理算法。
以上算法提取的特征均为浅层特征,这些特征在特定的数据和任务中性能优异,但大多数浅层特征普适性差[17],对于新的数据和任务需要新的域知识。
针对浅层特征的局限性,深度学习算法[18-19]从数据中自主学习特征。深度学习思想是建立多层表示获得数据深层抽象语义特征,这种抽象表示对类内变化具有更强的鲁棒性。深度学习处理图像分类任务的关键因素是卷积结构的选用,一个卷积神经网络(ConvNet)结构[20-21]包含多个训练阶段和有监督分类器。每个阶段一般包括三层:卷积组层、非线性处理层和特征池化层。
典型的深度学习网络有ConvNet和CNNs[22-23],但这些网络需要丰富的经验去调试,第一个有清晰数学调试的是小波散度网络(Wavelet Scattering Networks,ScatNet)[24]。但是这种提前设置好的结构却不适用于人脸识别,因为人脸中可能包含光照、遮挡使得类内变化较大[25]。Chan Tsung-Han等人[25]提出简单的PCANet网络用于图像分类,以PCA作卷积核,简化训练过程,且其分类性能高。
深度特征往往需要大量的有标记的样本去训练,且时间消耗较大;而浅层特征提取的判别性信息有限,不能挖掘数据最本质的特征,鲁棒性差,但不需要训练,时间消耗低。针对这些问题,本文将图像的深浅特征进行融合以提高特征提取的效率和鲁棒性,并应用于人脸识别。
1 深浅特征融合分类算法
本文将浅层特征和深度特征进行融合提出基于深浅特征融合的人脸识别算法,目的是充分发挥深浅层特征各自优势,提高人脸识别性能,同时对深度学习算法的原理进行简单的分析。算法基本流程如图1所示。
在浅层特征提取阶段,本文采用局部-全局的分步特征提取方案:HOG特征可提取图像浅层局部特征;考虑到数据的分布特点,选用RSLDA特征可在保留数据分布的基础上提取数据的全局特征,因此本文算法的浅层特征中包含了局部-全局特征,且保留数据局部性;在深度特征提取阶段,为解决少样本情况下深度特征提取问题,采用PCANet提取网络的深度特征;然后采用对深浅特征进行融合并分类。
1.1 浅层特征提取
本文采用HOG作浅层特征,HOG(Histogram of Oriented Gradients)特征是图像的一种简单有效的局部特征描述符,首先,将图像划分成多个区域;然后,计算每个区域的梯度直方图,再将每个区域划分成几块,计算每块的梯度直方图并串联,构成该区域特征;将所有区域特征串联起来构成图像的HOG特征描述符。
1.2 深度特征提取
PCANet 原理如图2所示,在每个阶段选用经典的PCA滤波器作卷积核;非线性层选用最简单的二进制量化(哈希编码);特征池化层采用逐块二进制码直方图作为最终的网络输出特征。
假设第i层滤波器个数为Li,PCA最小化造成的正交滤波器的重构误差即:
1.3 判别性信息再选取
本文采用RSLDA算法进一步对深浅层特征进行提炼。RSLDA算法可自适应选取最具判别性的特征,提取的特征不仅能保留大部分能量,且对噪声具有一定的鲁棒性。算法简要介绍如下:
设有数据集X=[x1,x2,…,xn]∈Rm×n(m表示样本维数,n表示样本个数),RSLDA采用l2,1范数,优化方程如下:
其中,Q∈Rm×d(d<m)为判别性投影矩阵;Sb和Sw分别为类间和类内散度矩阵;λ1为平衡参数,u为一个小的正常数用于平衡两个散度矩阵。通过采用l2,1范数,式(3)可自适应分配特征权重。其中约束条件X=PQTX,PTP=I可以看作PCA的变体用以保留能量,P∈Rm×d为正交重构矩阵。λ2为平衡参数,E表示误差,是对随机噪声的建模。
1.4 特征融合
原理分析:对任意一张给定的图像I,采用HOG算法提取图像的浅层局部特征,记为IH,考虑到数据的分布特点,采用RSLDA进一步对HOG特征进行降维,同时在保留数据分布的基础上提取数据的全局特征,此时特征记为IHR,因此本文算法的浅层特征中包含了局部-全局特征,且保留数据分布性;同时本算法采用PCANet提取网络的深度特征记为IP,同样采用RSLDA对PCANet特征进行降维,降维后的特征记为IPR;在特征融合阶段首先采用串联的形式将深浅特征进行简单融合得到IHP=[IHP,IPR],因融合后的特征会存在一定的冗余信息,因此进一步采用RSLDA对IHP进行降维,同时也提炼出IHP中最具判别力的特征,这也是对深浅特征的进一步融合;最后,训练SVM分类器进行分类。
2 实验仿真
为验证本文算法性能,在AR和Yale B人脸数据库上进行实验,并选用SRC、PCANe、PCANet_RSLDA_SRC、HOG_PCA_SRC、HOG_RSLDA_SRC作为对比算法。
2.1 AR数据库
AR数据库包含120人每人26张采集于两个时期的图片,其中一人的全部图像如图3所示。
首先选用120人每人第一个时期采集的13张图像作训练样本,第二个时期样本作测试集,即训练和测试样本的数量均为120×13=1 560张。因此,此实验的训练及测试集中均涵盖了光照、表情、遮挡及时间变化。实验结果如表1所示。
分析表1的实验结果可知,各算法性能为HOG_PCA_SRC<HOG_RSLDA_SRC<PCANet_RSLDA_SRC<本文算法。分析HOG_PCA_SRC<HOG_RSLDA_SRC可知RSLDA能够比PCA更好地保留判别性信息,也更适用于特征降维;此外基于HOG特征算法的性能低于基于PCANet算法性能,说明深度特征比浅层特征更具判别性;本文算法识别率高于单独的深层特征和浅层特征算法,说明深浅特征融合算法能更好地提取人脸图像中的判别性信息,且随着特征维数的降低,本文算法识别率下降的速度明显低于对比算法,证明本文算法具有一定的鲁棒性。
选用第一期的7张无遮挡图像作训练样本,即训练样本总数为120×7=840张,选用第二期的口罩和墨镜遮挡作测试样本,即测试样本的个数为120×3=360张。不同情况下各算法的识别率如表2和表3所示。
分析表2和表3结果可知,在墨镜遮挡的情况下,本文算法能在不同的特征维数下获得最高的识别率,PCANet_RSLDA_SRC的性能仅次于本文算法性能约1%,其余3种算法的识别率较低,而HOG_RSLDA_SRC 与PCANet_RSLDA_SRC相比其性能相差较多,说明HOG特征不适用于遮挡条件下的人脸识别,而PCANet提取的特征相对于HOG特征对遮挡具有更强的鲁棒性。本文算法将两种算法提取的特征进行融合后作为最终的人脸特征,且实验结果显示,融合特征的识别率明显高于PCANet 和HOG特征所能达到的识别率,说明本文算法的融合方法能够挑选出强鲁棒性特征进行融合。
围巾遮挡时,因遮挡面积较大,信息损失较多,所以算法性能均大幅下降,但本文算法仍能获得高于对比算法的识别率。
2.2 Yale B数据库实验
Yale B数据库包含30个人每人64张不同光照条件下的正面照片,部分样例图像如图4所示。实验随机选取每人的20张图片做训练,30张图片做测试,重复10次取平均识别结果作为最终的结果,如图5所示。
由图5可知,本文算法识别率高于对比算法,证明了本文算法在不同光照条件下对人脸识别具有更强的鲁棒性;但与PCANet_RSLDA_SRC相比,二者识别率相差不多,说明在该情况下本文算法性能优势有限。
3 结论
本文将HOG特征和PCANet网络提取的特征进行融合,不仅包含数据的浅层局部和数据分布信息,还包含深度判别性信息,在AR及Yale B人脸数据库的实验结果验证了本文算法的有效性和鲁棒性。但和典型的PCANet相比本文算法的识别性能略低,而典型的PCANet所提取到的特征维数极高,且需要消耗大量的内存及时间,而本文算法因融合了深浅层特征可以在很小的特征维数下获得较高的识别率,因此本文算法具有一定的合理性。今后的研究工作中会探索更具判别性更合理的深浅特征进行更有效的融合。
参考文献
[1] KIRBY M,SIROVICH L.Application of the karhunen-loeve procedure for the characterization of human faces[J].IEEE Transactions on Pattern analysis and Machine intelligence,1990,12(1):103-108.
[2] 首照宇,杨晓帆,莫建文.基于改进的RPCA人脸识别算法[J].电子技术应用,2015,41(9):157-160.
[3] HE X,NIYOGI P.Locality preserving projections[C].Advances in Neural Information Processing Systems,2004:153-160.
[4] QIAO L,CHEN S,TAN X.Sparsity preserving projections with applications to face recognition[J].Pattern Recognition,2010,43(1):331-341.
[5] HE X,CAI D,YAN S,et al.Neighborhood preserving embedding[C].IEEE International Conference on Computer Vision,2005:1208-1213.
[6] QIAO Z,ZHOU L,HUANG J Z.Sparse linear discriminant analysis with applications to high dimensional low sample size data[J].Iaeng International Journal of Applied Mathematics,2009,39(1):48-60.
[7] FAN Z,XU Y,ZHANG D.Local linear discriminant analysis framework using sample neighbors[J].IEEE Transactions on Neural Networks,2011,22(7):1119-1132.
[8] 郝静静,李莉.一种基于KPCA与LDA的人脸识别改进算法[J].电子技术应用,2013,39(12):132-137.
[9] YE J,XIONG T.Null space versus orthogonal linear discriminant analysis[C].International Conference on Machine Learning,2006:1073-1080.
[10] YE J,JANARDAN R,LI Q,et al.Feature reduction via generalized uncorrelated linear discriminant analysis[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1312-1322.
[11] YANG J,ZHANG D,YONG X,et al.Two-dimensional discriminant transform for face recognition[J].Pattern Recognition,2005,38(7):1125-1129.
[12] Wen Jie,Fang Xiaozhao,Cui Jinrong,et al.Robust sparse linear discriminant analysis[J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(2):390-403.
[13] Zhang Wuming,Zhao Xi,JEAN-MARIE M,et al.Improving shadow suppression for illumination robust face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(3):611-624.
[14] Hu Changhui,Lu Xiaobo,Liu Pan,et al.Single sample face recognition under varying illumination via QRCP decomposition[J].IEEE Transactions on Image Processing,2019,28(5):2624-2638.
[15] Du Lingshuang,Hu Haifeng.Nuclear norm based adapted occlusion dictionary learning for face recognition with occlusion and illumination changes[J].Neurocomputing,2019,340:133-144.
[16] 欧阳宁,钟欢虹,袁华,等.针对光照变化的人脸识别算法研究[J].电子技术应用,2015,41(5):152-155.
[17] BENGIO Y,COURVILLE A,VINCENT P.Representation learning:a review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine. Intelligence,2013,35(8):1798-1828.
[18] 范叶平,李玉,杨德胜,等.基于深度集成学习的人脸智能反馈认知方法[J].电子技术应用,2019,45(5):5-8.
[19] 黄海新,张东.基于深度学习的人脸活体检测算法[J].电子技术应用,2019,45(8):44-47.
[20] GOODFELLOW I J,WARDE-FARLEY D,MIRZA M,et al.Maxout networks [C].Processing of 30th ICML,2013:1-9.
[21] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural network[C].NIPS,2012:1097-1105.
[22] Li Yong,Zeng Jiabei,Shan Shiguang,et al.Occlusion aware facial expression recognition using CNN with attention mechanism[J].IEEE Transactions on Image Processing,2019,28(5):2439-2450.
[23] SHAKEEL M S,LAM K M.Deep-feature encoding-based discriminative model for age-invariant face recognition[J].Pattern Recognition,2019,93:442-457.
[24] BRUNA J,MALLAT S.Invariant scattering convolution networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1872-1886.
[25] CHAN T H,Jia Kui,Gao Shenghua,et al.PCANet:a simple deep learning baseline for image classification? [J].IEEE Transactions on Image Peocessing,2015,24(12):5017-5032.
作者信息:
赵淑欢
(河北大学 电子信息工程学院,河北 保定071002)