顾志航,陈淑荣
(上海海事大学 信息工程学院,上海 201511)
摘要:针对传统HOG特征的行人检测方法中因遮挡及复杂环境存在较高漏检误检情况,建立了一种基于HOG和局部自相似(LSS)特征融合的行人检测算法。利用LSS反映图像内在几何布局和形状属性的特性,用主成分分析(PCA)将HOG和LSS两类特征在实数域降维,再将两种特征组合成新特征,结合线性SVM分类器进行行人检测。实验采用INRIA数据库和Daimler数据库作为训练集训练SVM,用730幅监控视频帧图片作测试集,将该方法与基于传统HOG特征的行人检测方法做对比,结果表明该方法平均漏检误检率降低16%,检测效果优于基于传统HOG特征的行人检测方法。
关键词:行人检测;主成分分析;梯度直方图;局部自相似
0引言
随着视频监控和智能分析应用的普及,行人检测已成为一个重要的研究方向。目前行人检测算法常用特征主要有Haar特征[1]、尺度不变特征(SIFT)[2]、加速鲁棒特征(SURF)[3]、方向梯度直方图(HOG)[45]、局部二进制模式(LBP)[6]、局部自相似(LSS)[7]等,Haar特征适用于有固定结构的目标。SIFT/SURF的特征具有强烈方向及亮度性,适合检测图像几何和光学变化微弱的目标。LBP特征最初被引入人脸识别,但直接提取灰度图LBP特征会引入噪声信息,增加特征判别的难度。LSS特征则是通过捕捉颜色自相似性、边缘特征、重复模板以及复杂纹理计算两幅图像的相似性,更多用于图像匹配。本文选用HOG特征作为行人检测主要方法。HOG是在图像的局部单元格上操作,因此它对行人细微肢体动作和光照变化有很好的适应性。但HOG特征计算量大;由于梯度自身的性质,该特征对噪声敏感;行人遮挡、样本数量及类型限制,导致HOG特征在最后分类时出现漏检,若将漏检的样本加入训练样本集,又会出现大量的误检。针对这一问题,本文结合LSS特征计算图像相似性的特性,建立了一种基于融合LSS和HOG特征的行人检测算法。首先输入待检测视频帧图像,归一化处理和高斯去噪,然后分别提取图像的HOG特图1算法流程图征和LSS特征,再对HOG和LSS特征进行PCA降维并融合,最后用线性SVM进行行人检测。算法原理如图1所示。
1算法理论
1.1行人HOG特征提取
HOG特征是一种在计算机视觉和图像处理中进行物体检测的特征描述子。首先将图像分成小的连通区域cell,然后采集cell中各像素点的梯度构成方向直方图,再将直方图组合成特征描述器。流程图如图2所示。
图像中每一个像素点梯度为:
Gx(x,y)=H(x+1,y)-H(x-1,y)x,y(1)
Gy(x,y)=H(x,y+1)-H(x,y-1)x,y(2)
Gx(x,y)、Gy(x,y)、H(x,y)分别表示图像像素点(x,y)处的水平、垂直方向梯度和像素值。像素点(x,y)处的梯度幅值和方向为:
实验中取16×16像素为一个cell,2×2 cell为一个block,将梯度角度[0,π]分为9个区间bin,对每个cell内所有像素的梯度值在各个bin区间进行直方图统计,得到9维的特征向量,一个block就有36维特征向量,利用L2范数对整个block归一化,得到block的特征向量;收集检测窗口中所有重叠块的特征,构建最终HOG特征向量供分类使用。实验中一张64×128的图片可以生成几千维的特征向量,过高的特征维度会增加算法后期计算量。
1.2LSS特征提取
LSS特征用于捕捉本地图像间自相似性。当存在局部小规模变形时,LSS特征通过捕捉颜色、边缘、重复图样和复杂纹理的自相似性,从而匹配图像。本文利用这一特性,结合HOG特征,辅助区分行人和非行人目标,以此降低漏检误检率。LSS特征计算过程如下。
1.2.1计算相关面
假定计算中心像素p(x,y)处的LSS特征,以p点为中心构建两个环绕图像块,内外环图像块的半径为r1和r2,计算环绕块内像素点亮度差值平方和(Sum of Square Differences,SSD),结果记为SSD(p)。再将SSD(p)归一化为相关面S(p),公式为:
S(p)=exp (-SSD(p)/max(vn,va(p)))(5)
其中,vn为常量,是颜色或光照上的噪声;va(p)为点p与其相邻点的最大距离。
1.2.2提取特征值
S(p)计算完成后,转换为以点p为中心的极坐标表示, 再根据半径和角度的量化级数将S(p)上的各像素点按坐标划入到对应的量化级,取每个量化级最大值作为最终特征矢量分量,构成LSS特征值。
本文实验过程如图3所示。图3(a)为一幅64×128像素的图像,取r1=7×7为中心子窗口,q为中心点,再以q为中心选取r2=21×21为一个patch;从patch左上角开始,取5×5的子窗口,上下步进7,计算所有子窗口与中心子窗口的SSD,结果如图3(b)所示;然后从图像的左上角patch开始以17为步进,得到32个patch;将SSD转化到对数极坐标系,角度和径向上划分为20份和4份,如图3(c)所示;在每个角度区域选择最大“相关值”作为特征值,形成80维LSS描述子,如图3(d)所示;最终生成4×8×80=2 560维LSS特征,高维度LSS特征向量同样会增加算法的计算量。
1.3PCA降维
图像提取的两种特征向量维度都很高,两种特征融合后,新特征维度更大,大量冗余信息会降低识别精度,减缓分类速度,故需要降维。参考文献[45]证明PCA降维分别在基于HOG特征的行人检测算法和基于LSS特征的图像匹配算法中对降低计算量效果较好。本文采用PCA对两种特征降维。用式(6)计算特征主成分:
y=UT(xi-x-)(6)
其中,y为主成分特征,x-为训练样本的特征均值,xi为第i个样本,UT为协方差矩阵公式。
式(7)、(8)中,N为样本数量,n为样本维数,T为矩阵转置符号。对于具体的降维维数k,通过下式主成分贡献率来确定:
式(9)中,λi为式(8)中∑的特征值,δ为主成分贡献率。
本文实验中HOG和LSS特征的降维步骤如下:
(1)计算训练样本集中HOG特征均值x1-和LSS特征均值x2-。
(2)根据式(7)计算特征值、特征向量及协方差矩阵U1、U2,其中U1的矩阵为3 780维,U2的矩阵为2 560维。
(3)取协方差矩阵前p个主成分,对每个HOG及LSS特征,通过式(6)进行特征降维,分别得到降维的HOG和LSS特征,向量维数k1、k2的值根据式(6)~式(9)的实验结果确定。
1.4特征融合
由于两种特征原理不同,本文采用串行特征组合方法,如式(10)所示:
C={(α,β),α∈A,β∈B}(10)
α和β代表HOG及LSS特征。本文将LSS特征作为辅助检测,与HOG特征在降维后融合,在不增加计算量的基础上能降低传统算法的漏检误检率。
1.5行人检测分类器
SVM通过核函数将样本映射到线性可分的高维空间,进行点积运算得到判别结果,鲁棒性较好。而线性核函数算法简单,计算量小,更适于实时监控视频的行人判定。本文采用基于线性核函数的SVM作为分类器。
2算法描述
本文算法步骤如下:
(1)输入监控视频,提取帧图像,转换为灰度图,并归一化和高斯去噪。
(2)提取预处理后图像的HOG特征及LSS特征,构成特征集α、β。
(3)分别计算两种特征的特征值、特征向量以及协方差矩阵U,结合式(6)~式(9)通过实验计算不同维度特征的主成分贡献率,确定向量维数k1、k2。
(4)根据k1、k2对HOG及LSS特征进行PCA降维并级联成特征C。
(5)将特征C输入线性SVM,进行行人目标的判别检测。
3实验结果及分析
为验证算法有效性,在MATLAB 2014a环境下进行实验,计算机配置为2.3 GHz CPU和4 GB内存,数据库为INRIA数据库和Daimler数据库。实验将本文算法与传统HOG算法和LSS算法进行比较,从两个数据库中选择2 300个包含行人正面和其他姿势以及5 000张无行人的图片作正样本集和负样本集,以训练线性SVM。最后输入一段监控视频,提取730幅图像检测行人,得出实验数据。
3.1特征PCA维数选取实验
分别提取HOGPCA特征和LSSPCA特征级联得到特征C,通过多次实验确定两种特征的PCA维数p,并对比了它们结合线性SVM后的分类判别能力。PCA维数对识别率影响的实验结果如图4所示。表1为降维后的组合特征与不降维的组合特征在训练时间、检测时间和识别率方面的比较。
实验结果表明:图4中HOG特征在PCA维数为300时达到峰值,而LSS特征则在700维时达到峰值;表1中降维后的两种特征在训练时间和检测时间上明显缩短,识别率得到有效提高。实验结果与式(9)吻合,证明了两种特征的PCA维度可以根据式(9)进行确定。本文HOG特征维度选择300维,LSS特征维度选择700维。
3.23种算法实验对比
为验证本文算法的性能,将本文算法与基于传统HOG特征、LSS特征的行人检测算法进行对比。图5(a)在单窗口检测情况下比较3种方法的漏检率(Miss Rate)及误检率(False Postive),3条曲线分别代表3种方法。
实验结果表明,相同FPPW的情况下,本文方法丢失率分别比传统HOG和LSS方法降低了53%和26%;其中HOG的结果最不理想,平均漏检率达到了11%。图5(b)在整个图片检测的情况下比较基于传统HOG特征的算法与本文算法的漏检率(Miss Rate)及误检率(False Postive),本文算法准确率达到93.51%,而传统HOG算法准确率只有89%。相同FPPI情况下,本文算法丢失率则比传统HOG方法降低了15%。图6为一段视频处理后,两种算法的行人检测图片。
图6(a)、(b)和(c)、(d)分别为不遮挡情况下的视频帧。其中(a)、(c)基于传统HOG特征算法,(b)、(d)基于本文算法的行人检测结果;图(a)、(c)中箭头为传统算法漏检的行人,图(b)、(d)中用本文算法准确检出了漏检的行人。
4结论
针对传统HOG特征在行人检测算法中,因遮挡及复杂环境导致的较高误检率,建立了一种基于传统HOG和LSS特征融合的视频行人检测算法。通过选取合适的PCA降维维度,有效减小了计算量,降低了行人检测过程中的误检及漏检率。实验表明本算法识别检测精度较高,为视频监控系统的实时行人检测方法提供了理论依据。
参考文献
[1] VIOLA P, JONES M J, SNOW D. Detecting pedestrians using patterns of motion and appearance[C]. Proceedings of the Ninth IEEE Conference on Computer Vision, 2003: 734741.[2] LOWE D G. Distinctive image features from scaleinvariant keypoints[J]. Intermational Journal of Computer Vision,2004,60(2):91110.
[3] BAY H, ESS A, TUYTELAARS T, et al. Speeded up robust features (SURF)[J] Computer Vision and Image Understanding,2008,110(3):346359.
[4] 田仙仙,鲍泓,徐成 一种改进HOG特征的行人检测算法[J].计算机科学,2014,41(9):320324.
[5] 郝溪,陈淑荣,尹道素.融合HOG 与颜色特征的粒子滤波行人跟踪算法[J].微型机与应用,2014,33(6):4043.
[6] 陈锐,王敏,陈肖.基于PCA降维的HOG与LBP融合的行人检测[J].信息技术,2015(2):101105.
[7] 刘景能.图像局部不变特征提取技术及其应用研究[D].上海:上海交通大学,2012.