摘 要: 视觉计算模型集合了人类视觉系统(HVS)的复杂特征,并模拟了视觉输入的分层感知表达。自底向上机制是现代模型中最常见的特征,是指无意识的注意,所提出的一致计算方法模拟自底向上视觉注意,并通过一致区域的计算来达到目标识别的目的。所提模型主要基于对HVS行为的目前的理解,使用对比敏感度函数、感知分解、视觉掩蔽形成一个神经性视觉空间,并在此基础上使用center-surround交互、感知编组和显著图的建立来得到最终的显著图。所提模型的性能通过使用自然图像来进行评估,并将其结果与参照的经典的自底向上模型进行对比,结果表明该模型实效性高。
0 引言
搜索场景中的兴趣区域(RIO)[1]并加以关注的机制称之为视觉注意。视觉注意是人类视觉系统的最重要的特征之一,调节包含视觉场景不同方面的竞争力量并选择最相关的区域来去除其他的。然而,环境提供的信息要比能有效处理的信息多得多。为了保存必要的视觉信息,人类要开发出特殊机制来解决这一问题。这一策略中包括两种机制。第一种是由环境事物驱使的感知注意,一般叫做自底向上或者刺激驱动;另一种既有内部又有外部刺激,一般叫做自上向下或目标驱动。
大部分视觉注意计算模型可以分为两类。第一种考虑统计的基于信号的方法,它由在注意焦点上直接使用图像统计学的自动预测视觉场景的显著区域构成;第二种建立于两种重要的概念:特征说明理论(FIT)[2]和生物合理框架[3]。该模型是基于来自于显著图推理的连贯神经性视觉空间。这一空间,具有生物学上的合理性,被用来连接图像的视觉特征(强度,颜色,方位,空间频率)且被归一化到个人的可见度阈值。本文依次通过特征性处理、center/surround交互、感知编组和显著图的建立来得到最终的显著图。实验结果表明该模型具有切实可行性和高效性。
1 计算模型设计
1.1 特征性处理
特征性处理模拟的是HVS的有限敏感度。一致归一化被首先用于量度所有的视觉数据。所有的归一化数据组合成一个神经性视觉空间。该空间是从下面的一组基本的机制确定。
1.1.1 将RGB颜色空间转换到Krauskopf的颜色空间
在视网膜上有两种不同类型的光感受器:视锥细胞和视杆细胞。视锥细胞有三种类型:L、M和S分别对长、中、短波长敏感。对立颜色空间的主要成分为黑-白、红-绿、蓝-黄。因为联合不同视锥细胞的方式不同,从而有各种各样的对立颜色空间。Krauskopf提出的颜色空间是由实验确定的。其颜色空间变换如公式(1):
其中,A是纯消色差感知分量,Cr1和Cr2为彩色感知分量。
1.1.2 早期视觉特征提取
早期视觉特征的提取是通过感知通道的分解而进行的。这一分解由在空间辐射频率和方向上的二维空间频域组成。这一分解被应用于三个感知分量。本模型中视觉空间频率的消色差分量分割成17视觉通道,而仅有5个通道用来获得彩色分量[4]。消色差分量被分布在4个冠,分别标记为Ⅰ、Ⅱ、Ⅲ、Ⅳ。彩色分量被分布在2个冠记为Ⅰ、Ⅱ。这些分解间存在的主要性质与被叫做皮层转换的相似变换间的主要不同是,非二进制径向选择性和随着径向提高的方向选择性[5]。
1.1.3 对比敏感度函数
对比敏感度函数(CSF)被广泛应用于测量自然图像组成的可见性。特殊分量的可见性可以通过在频域上采用CSF进行评估。当频率分量的振幅比阈值CT0大的时候,频率分量便可感知。这一阈值叫做可见性阈值,它的倒数定义了在此空间频率的CSF的值。CSF被应用于每一组分量(A,Cr1,Cr2)。由Daly设计的2D各向异性CSF被应用在消色差分量上。两个彩色视觉分量Cr1和Cr2通过使用正弦颜色光栅进行模拟。以下定义了两个2D各向异性CSF函数[6-8],它们是两个带有Cr1和Cr2分量、截止频率分别为5.5 cpd和4.1 cpd的低通滤波器,如式(2)和式(3),是径向脉动?棕的函数,?兹为方向角。
1.1.4 视觉掩蔽
掩蔽效应指的是由于环境影响,对刺激的微分可见性阈值CT0进行的修改[9]。没有掩蔽效应(DVT)时的CT0由于掩蔽效应被修改为CT,该关系可以表示为CT=CT0×T,当T>1时,阈值的增大意味着掩蔽效应的存在。在子带分解背景下,可以定义通道间掩蔽、通道内掩蔽、分量内掩蔽三种掩蔽。由于分量内掩蔽要比其他两种掩蔽效应弱得多,在这里被忽略掉。
(1)通道内掩蔽:使用Daly[10]设计的函数来模拟消色差分量的通道内掩蔽效应。可见度阈值的变化为:
其中为来自于感知分解的分波段,(i,j,c)分别代表空间频率分布、方向索引以及被考虑的成分(A,Cr1,Cr2)。R的上标被用来计数模型的每一个处理步骤。(x,y)为被考虑的空间位置,k1=0.015 3,k2=392.5,s和b是每个分波段的常量。
使用由Callet[6]设计的函数来模拟彩色分量的通道内掩蔽效应。其分析式如下:
参数a,b,c是(i,j,Cr)的一个函数。例如分量Cr1通道1的掩蔽参数{a,b,c}等于{0.45,0.06,1.22}。
(2)通道间掩蔽:其中包含两种不同的掩蔽效应,在一些情况下,依靠其中的分波段来降低DVT,它对应下面的模型A,在其他情况下,对应模型B。
模型A:
模型B:
其中,参数a,b,c是(i,j,Cr)的函数,并依赖于模型A或B。最终的DVT由公式CT=CT0×T给出,其中特殊通道(i,j)和特殊分量C的T定义为:
其中表示分量C的(i,j)通道与C′分量的(i′,j′)通道在特殊位置(x,y)产生的一个特殊的相互作用。DVT的修改是起源于通道内掩蔽和通道间掩蔽的可见性阈值的变化。所有的分波段由合适的DVT的调制量进行加权:
其中,C=(A,Cr1,Cr2),这些机制将图像转换为完整的神经性视觉空间。这一空间由所有的视觉特征组成并归一化为其自己的微分可见性阈值。
1.2 Center/Surround交互
该部分主要包括Center/Surround一致相互作用。为了处理大量的视觉信息,视觉系统使用注意机制去选择相关区域并且减少视觉信息的冗余,而皮层细胞的特定导向Center/Surround组织是至关重要的。这种细胞的响应可以通过各向异性高斯函数进行有效模拟。这种抑制贡献是通过归一化加权函数与子带(i,j)内当前信号的卷积而获得。
‖·‖1表示L1的范数,(x′,y′)T是通过(x0,y0)T转换原始坐标系并旋转角?兹i,j获得的:
1.3 感知编组
感知编组是指人类视觉根据分组和组合视觉特征去组织一个有意义的高级结构的能力。最常见的就是便利交互,当CRF内的刺激和周围区域的刺激形成轮廓时,细胞活动就会提高。这种便利交互通常称为轮廓增强或轮廓分组。轮廓分组通过使用两个半蝶式滤波器进行模拟,蝶式滤波器通过定向公式Di,j(x,y)和一个高斯滤波器G(x,y)平滑的圆Cr形成的相近公式而获得。
1.4 显著图的建立
显著图S是通过对不同消色差通道的输出直接求和而得到的。在眼追踪实验期间,参与者在刺激开始前不得不关注屏幕中间。为了处理这种约束条件,显著图可以通过带有标准差(xe,ye)的各向异性高斯函数进行加权,其中(x0,y0)位于坐标系中图片的中心,结果显著图S′为:
高斯函数使用了各向异性高斯函数的优势来提高模型效率。标准差(xe,ye)由优化程序获得,其中xe=2.5度,则ye通过如下公式得到:
Rx和Ry是以视角的度进行表示图像的尺寸(宽和高)。Ind()是指示函数。
2 实验结果
将本文提出模型的结果图与传统的自底向上典型算法Itti的结果进行比较,结果如图1所示。
3 结论
本文描述了用于目标识别的一致计算模型,其模拟了自底向上视觉注意机制,依次通过使用对比敏感度函数、感知分解、视觉掩蔽来形成神经性视觉空间,并通过Center/Surround交互、感知编组和显著图的建立得到了最终的显著图,即所有早期视觉特征都被可见性阈值进行了归一化,可见性阈值通过背景进行了模拟,这是通过视觉掩蔽模拟而合并的。这种一致归一化允许根据可见性的所有视觉特征的表达,且显著值从精神性视觉空间获得,其中各个步骤都具有生物上的合理性。所提模型也可以通过组合更多的早期视觉特征来提高性能。由于所有的早期视觉特征都被一致归一化,其可能直接实施其他的联合方法。实验结果也表明了,该模型能很好地预测图像中的显著区域,具有高效性。
参考文献
[1] JUNG C, KIM W, YOO S, et al. Anovel monochromatic cue for detecting regions of visual interest[J]. Image and Vision Computing, 2014(32):405-413.
[2] TREISMAN A M, GELADE G. A feature-integration theory of attention[J]. Cognitive Psychology, 1980,12(1):97-136.
[3] KOCH C, ULLMAN S. Shifts in selection in visual attention: toward the underlying neural circuitry[J]. Human Neurobiology, 1985,4(4):219-27.
[4] SENANE H, SAADANE A, BARBA D. Visual bandwiths estimated by masking[J]. Eighth IEEE Workshop Image and Multidimensional Signal Processing. 1993,7(5):137-151.
[5] WATSON A B. The cortex transform: rapid computation of simulated neural images[J]. Computer Vision, Graphics,and Image Processing, 1987,39(3):311-327.
[6] CALLET P L, SAADANE A, BARBA D. Interactions of chromatic components on the perceptual quantization of the achromatic component[J]. SPIE Human Vision and Electronic Imaging, 1999,11(7):364-370.
[7] CALLET P L, SAADANE A, BARBA D. Frequency and spatial pooling of visual differences for still image quality assessment[J]. SPIE Human Vision and Electronic Imaging,2000,23(7):59-67.
[8] CALLET P L, BARBA D. Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality[J]. PCS,2001.
[9] LE MEUR O, LE CALLET P, BARBA D, et al. Masking Effect in Visual Attention Modeling[M]. Workshop Image Analysis for Multimedia Interactive Services, 2004.
[10] DALY S. A Visual Model for Optimizing the Design of Image Processing Algorithms[J]. IEEE Int′l Conf. Image Processing, 1994,2(10):16-20.