刘伟,薄华
(上海海事大学 信息工程学院,上海 201306)
摘要:图像的大部分结构信息都集中在了边缘,在进行边缘检测时滤除一些与图像计算不相关的信息,可减少计算中的数据量,使得计算更加便捷;在结构属性上也得到了很好的保留,因此边缘检测方法在图像视觉效果评估上是可行的。人眼对于一幅图像的视觉并不是每一个图像区域都具有同等的视觉重要性。可以建立一种数学方法,提取图像中的视觉重要区域,对这些区域进行视觉效果评价。选取基于结构相似度方法作为最终评价方法,得到了一种全参考图像质量评价算法。最后将实验结果与3个图像评价库的参考结果进行拟合,得到的结果与其他算法相比表明,该算法更加符合人眼的视觉效果特性。
0引言
随着现代多媒体信息技术的快速发展,数字图像作为多媒体技术之一在当今生活中的作用越来越受到大家的关注,图像在获取、压缩、编码、传输、处理等过程中产生的各种失真和误差是无法回避的,这些不同程度的误差和失真会直接影响到图像的质量,从而影响了人眼对图像观赏效果,因此需要一种更加方便且精确的方法来评价图像的质量。
当下图像视觉效果评估方法主要分为两大类:主观评估和客观评估。主观评估法昂贵、耗时又不方便实时应用,不仅受到人体本身条件的影响而且还受到环境因素的影响,因此评估稳定性较差。客观评估方法是利用计算机通过算法来算出失真图片视觉效果值作为评估的依据,客观评估方法可分为全参考、部分参考和无参考三种类型。本文是基于全参考下的图像视觉效果评价方法。全参考图像视觉效果评估方法是指拥有该失真图像的原始图像,运用某种数学算法将图像某一特征进行提取,与待评价图像进行对比分析,通过差异的大小判断失真图像的质量的好坏,这种模式的好处是充分运用了数学模型的稳定性,准确性较好。当前全参考图像的研究种类基本上分为四大类:像素之间误差统计、结构相似度、信息保真度和人类视觉系统。传统的像素之间误差统计客观评估方法中,比较常见的是均方误差(Mean Square Error,MSE)[1]和峰值信噪比(Peak Signal to Noise Ratio, PSNR)[2] ,其计算方法都是计算原始图像和带评价图像之间像素点灰度值之间差异来判断一幅图像的好坏。但是这类算法只考虑了像素之间的差异,其实验结果并不能准确表达人眼的视觉。参考文献[3]表述人眼睛的视觉功能主要是用来提取背景中的结构信息,Wang Zhou等人通过此类结论得出了新的基于结构失真的图像视觉效果评价方法(Structual Similarity,SSIM)[4],此方法在对某些不同类型的失真及失真敏感度不同的情况下也与人眼主观视觉存在一定的差异。MOORTHY A K等人提出基于视觉区域利用综合感知的改进算法[5];王强等人[6]深入挖掘图像的结构信息,利用图像中邻近像素点的相关性对图像边缘、纹理等结构提出了一种基于局部结构方向相似度的质量评价算法(Structual Orientation Information,SOI)[6]。本文提出了一种新的图像视觉效果评价算法,通过对图像的边缘信息进行提取,并且结合局部方差确定待评价区域,运用SSIM算法得到最终图像的质量分数,实验结果证明该方法与人眼主观的视觉效果具有高度相似性。
1基于边缘显著区域和结构相似度的图像视觉效果评价
1.1Canny边缘检测
本文提出的视觉效果评价算法通过Canny边缘检测算子来对图像的边缘结构信息进行提取。Canny算子首先将图像的噪声进行抑制,获得平滑的图像。最后通过精确定位得到图像的边缘位置。其步骤如下:
(1)用高斯滤波器平滑图像。
高斯平滑函数H(x,y):
G(x,y)=f(x,y)H(x,y)(6)
其中f(x,y)是图像数据。
(2)在Canny算子中用一阶偏导的有限差分近似方法来计算图像中的梯度的幅值和方向。
利用一阶差分模板:
得到幅值:φ(x,y)=φ21(x,y)+φ22(x,y),方向:θφ=tan-1φ2(x,y)φ1(x,y)。
(3)在图像矩阵中对梯度的幅值进行非极大值抑制。
对于整幅图片来说其图像矩阵中值越大的点只能表示为在此点的梯度的幅值越大,并不能将其表示成该点是图像中的边缘点,在边缘点确定时应该保留其局部梯度值最大的点,但是在非极大值点上,对其进行抑制,寻找到梯度最大值点后,不是对最大值点进行抑制,而是将梯度最大值点所对应的其灰度值设置为0。
图1非极大值抑制图1中4个扇区相应的编号为0~3,与之相对应的左图为3×3的4种可能的组合。首先要确定某一像素点的灰度值的大小并判断在其领域中是否最大,如果得出该点不是局部的最大灰度值点,则否决该点为边缘点。以上原理就是确定边缘点的工作原理。
(4)使用双阈值算法对边缘进行检测以及连接。
通过第三步的非极大抑制后得到的幅值如果直接显示出结果,那么很有可能会有少量的边缘像素包含到输出结果中,这样会影响边缘检测结果的精确性,所以采用双阈值的方法来进行取舍。与传统方法的一个阈值选择相比,Canny算法中提出的双阈值方法很好地实现了边缘选择,双阈值选择与边缘连接方法假设两个阈值,这两个阈值,分为两极,一个为高用T1表示,另一个为低用T2表示。
T2=0.4T1则有:
(1)对于任意边缘像素低于T2的则丢弃。
(2)对于任意边缘像素高于T1的则保留。
(3)对于任意的边缘像素其值在T2到T1之间的,如果能通过边缘连接到像素值大于T1而且边缘所有像素值大于最小阈值T2的则保存,否则不保留。
本文采用了相比之前Canny算子更加细化的Canny算子。对高斯滤波器得到的图像进行边缘检测,且在检测中用Sobel算子进行横、竖、联合检测,最后得到联合检测图像并对其进行非极大值抑制,在边缘点连接的同时进行滞后阈值处理。此方法得到的边缘检测图像在边缘结构上具有很好的连续性,更好地反映了图像的边缘部分。图2为原始图像,图3为采用此方法得到的边缘检测图,具有较好的效果。
1.2图像显著区域提取
在人眼视觉系统中对于整幅图像而言,并不是每一块区域都是人眼视觉的重要区域,因此为了提取图像中人眼视觉重要区域,可以通过一些量化手段来实现。本文选用谱残余(Spectral Residual,SR)[7]的方法来选取图像的显著区域。SR算法对图像的幅度谱进行处理后获得图像的残余谱,对获得的残余谱利用傅里叶变换得到空间域的显著图。
对于一幅图像,其像素在空间上的变化各不相同,但是,如果从空间频谱域进行分析,每幅图像都可以分解成具有多个不同的空间频谱的波信号。以小波分解为例,经过分解后的图像,在图像中具有明显区别的部分都会集中在高频部分,也即图像空间域中高频部分包含了图像的细节或结构信息。
在描述图像的细节和纹理信息等时,通过局部方差能获得很好的效果,所以利用局部方差来分析图像也是很好的方式。如果用Var(I(x,y))表示图像I(x,y)局部的方差,其具体含义就是把图像中的某点(x,y)设为中心点,计算该点局部区域内的局部方差。对于局部的理解即为图像的每一个块,在实际计算过程中,往往将图像采用滑动窗口将图像分解为互不重叠的图像块,最终此算法算得的某一区域内的局部方差即是块图像的局部方差。如果每一个图像块I(x,y)的像素数为N,用np来作为图像中图像块的像素,那么每个图像块的局部方差数学表达式为:
以上即为图像的局部方差的计算过程。
首先,将参考图像与失真图像分成8×8的互不重叠的图像块,分别用Ai和Bi表示,计算原始图像与待评价图像的局部方差,分别用Var_ri和Var_di表示两者的局部方差。然后算出原始图像和待评价图像的局部误差差值,并取其绝对值:
Vari=|Var_ri-Var_di|(11)
用V-ari代表Var的均值,那么原始图像与待评价图像的目标区域Ath和Bth的选择可以表示为:
(Ath,Bth)={(Ai,Bi)|Vari>V-ari},(i=1,...,N)}(12)
1.3结构相似度
MSE和PSNR只是单纯地考虑了图像之间灰度的差异,并没有考虑像素之间的结构关系以及人眼观察图像的特点,针对此问题,Wang Zhou等人认为在图像中图像的结构信息不仅反映了图像中物体的结构特征,并且图片中的亮度和对比度在图片的质量,以及人眼对图片的某一感兴趣的视觉区域的获取具有非常大的帮助[4]。假设x、y分别为原始图像和待评价图像,它们的亮度、对比度、结构相似度分别为:
s(x,y)=2σxy+C3σ2xy+C3(15)
综合上述三者信息构成的原始图像x和待评价图像y的结构相似性为:
SSIM(x,y)=[l(x,y)]α·[c(x,y)]β·[s(x,y)]γ(16)
式中μx为图像x的灰度均值,表示其亮度信息,σx为图像x的方差,表示其对比度信息,σxy为x、y的相关系数,反映了其图像中结构信息的相似度。C1、C2、C3为接近于零的正常数,目的是为了防止分母为零导致计算中出现结果异常,令C1=(K1L)2,C2=(K2L)2,C3=C2/2, 其中L表示图像中其像素范围,在计算中一般取K1=0.01,K2=0.03,L=255。
在实际应用中,采用一定大小的窗口滑窗分别从原始图像和待评价图像的左上角到右下角对图像中逐个像素点进行滑动,依次算出同一区域所对应的子块图像的SSIM数值。
其中xj,yj表示第j个原始图像的子块图,它们之间的结构相似度用SSIM(xj,yj)来表示,M表示窗口分块后子图像块的个数。SSIM值的大小与1越相近则表示失真图像,与原图像越接近。
1.4基于边缘显著区域和结构相似度的图像视觉效果评价
本文算法的主要思想:(1)选取参考图像和失真图像,分别对其进行Canny算子边缘检测,得到边缘检测图像。(2)将原始图像与待评价图像分成互不重叠图像块,并计算原始图像与待评价图像的局部方差,从而获取图像的显著区域。(3)对原始图像和待评价图像的目标显著区域运用结构相似度评价算法进行指标计算从而得到图像的评价值。针对上述描述可得本文的算法,如下:
(1)假设x、y分别表示失真图像和参考图像,对其运用Canny算子进行边缘检测后得到x′、y′边缘检测图像;
(2)对x′、y′图像计算其VarI(x,y),在对整幅图像上对x′、y′分成8×8的小块分别计算每个图像小块的Var I(x,y);
(3)分别用Var_ri和Var_di表示x′、y′局部方差然后计算参考图像和待评价图像的局部误差差值,通过差值选择来得到图像特征显著区域;
(4)原始参考图像与待评价图像的目标区域分别为Ath以及Bth,分别运用结构相似度计算图像的亮度l(x,y)、对比度c(x,y)和结构相似度s(x,y)值;
(5)计算SSIM值,通过图像块的平均加权方法得到最终评价SSIM值。
2实验分析
为了验证本文提出算法的有效性,本文通过与3个图像库给出的参考结果进行拟合对比来验证本文所提出的图像视觉质量评价算法。其分别是A57[8]、CSIQ[9]、TID2008[10]。这3个数据库包含了压缩效应、模糊、闪变效应噪声和传输效应失真等,并且每一个图像库都附带有人眼主观评价分值,都具有很高的权威性。图4为选取了CSIQ图像库的原始图像和一组不同噪声图像。本文还使用了斯皮尔曼相关系数(SROCC)、皮尔逊相关系数(PLOCC)和均方误差(RMS)评估指标来比较这些客观结果和主观结果。
最后将本文评价算法的性能结果与其他图像评价算法进行比较,这些算法包括:PSNR、SSIM、PHVSM[11]、IFC[12]、VSNR[13]和MAD[14],表1给出了最终的比较值。其中对于SROCC和PLOCC越接近1表示效果越好,而RMS越小则表示效果越好。
从实验结果可以看出,在图像库TID2008和CSIQ中,本文所提出的基于边缘显著区域的算法,在评价结果上相对于其他算法更符合人眼的主观评价,从而论证了本文所运用的方法在图像评价上拥有更好的性能。从A57图像库中可以看到在评价效果上不是十分明显,这是因为在计算图像的特性显著区域时,由于SR方法在抑制图像非显著信息的同时也抑制了图像的显著区域。A57图像库其特点就是强调细节的重要性,因此在算法应用的过程中,由于忽略掉了一些细节方面的信息,从而对于A57图像库本文的算法效果不是十分明显。
3结论
人眼在处理自然场景或者图片时,并不是图像中的每一个部分的变化都能够引起人眼视觉系统的注意。本文正是基于这种概念的启发,对边缘检测后的图像进行显著区域分析,并对其进行评价,从而得到评价结果。实验证明本文的视觉效果评价算法能够获得一个较好的评价结果。同时,本文算法在显著区域提取方面和结构相似性的计算上仍有待改进的空间,对显著区域评价方法的研究将是后续工作的重点。
参考文献
[1] Wang Zhou, BOVIK A C. Mean squared error: love it or leave it a new look at signal fidelity measures[J]. Signal Processing Magazine IEEE, 2009, 26(1):98117.
[2] AHMET M E, FISHER P S. Image quality measutes and their performance[J].IEEE Trans acations on Communications,1995,43(12):29592965.
[3] Wang Zhou, BOVIK A C, HAMID R S,et al. Image quality assessment: from error visibilityto structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4):600612.
[4] LARSON E C, CHANDLER D M. Most apparent distortion: fullreference image quality assessment and the role of strategy[J]. Journal of Electronic Imaging, 2010,19(1): 011006101100621.
[5] MOORTHY A K, BOVIK A C. Perceptually significant spatial pooling techniques for image quality assessment[J]. Human Vision and Electronic Imaging, 2009, 7240:111.
[6] 王强,梁德群,毕胜,等.基于结构方向信息的图像质评价方法[J].计算机应用,2010, 30(6):16221625.
[7] 易瑜,薄华,孙强,等.基于显著图与稀疏特征的图像视觉效果评价[J].微型机与应用,2015,34(8):4143.
[8] LARSON E C, CHANDLER D M.Most apparent distortion: fullreference image quality assessment and the role of strategy[J].Journal of Electronic Imaging,2010,19(1): 143153.
[9] Hou Xiaodi, Zhang Liqing. Saliency detection :a spectral residual approach[C].IEEE Conference on Computer Vision and Pattern Recognition ,CVPR 07,IEEE,2007:18.
[10] HYVARINRN A, KARHUNE J, OJA E. Independent component analysis[M].John Wiley & Sons, 2004.
[11]PONOMARENKO N, LUKIN V, ZELENSKY A, et al. TID2008a database for evaluation of fullreference visual quality assessment metrics[J]. Advances of Modern Radioelectronios, 2009, 10(1):3045.
[12] SOLOMON J A, WATSON A B, AHUMADA A. Visibility of DCT basis functions:effects of contrast masking[C]. In Proc. Data Compression Conf., Snowbird, UT. 1994:361370.