文献标识码: A
DOI:10.16157/j.issn.0258-7998.2018.S1.030
0 引言
近年来随着移动通信的快速发展,手持终端在电力行业的应用也越来越多。在电力现场,施工人员用手持终端完成业务流程,用图片和视频等记录施工现场,降低了电力行业的管理成本,提高了工作效率,加强了对业务的管理。但是现场施工人员依然需要输入较多的文字信息,特别是在输入所维护设备的设备型号和设备编号时,型号和编号一般是比较长的英文字母和数字组合,难以记忆,容易输入错误。从视频中提取设备型号和编号实现自动录入将降低施工人员信息输入难度,减少工作失误。然而,施工现场光照条件难以预计,拍摄角度不定,如何准确地定位视频中文字的位置以便进行进一步文字识别仍是一个技术难题。
文字作为高抽象化的信息载体,在信息交互过程中起着重要作用。随着智能终端的普及和虚拟现实、增强现实等新概念、新技术不断发展,文字检测技术的应用空间正呈现飞跃式的发展。在日常生活中,有很多场合适合或已经正在使用文字检测技术来改善我们的体验。比如,在视频会议过程中自动定位文字,进而进行关键文档区域的局部增强、放大或自动保存。其它较为典型的例子还包括,智能辅助驾驶系统通过文字检测技术进行的道路交通标识识别,智能手机里的视频取景自动翻译功能等。在过去的几年里,依托图像、视频文字定位技术有大量诸如此类的应用衍生。
现有的文字定位算法可以初略划分为三类:基于纹理分析的方法、基于区域分析的方法以及混合算法。基于纹理分析的方法[1]认为文字区域与其它类型目标的纹理特性相比具有较大的差异,一般借助空间滤波、局部强度分析或小波分析等传统技术进行纹理信息的提取。此类方法的一个主要缺点是,纹理特征模型只能适应特定朝向的文字,不能应对文字在影像内的几何变换,因此算法的迁移能力较差。基于区域分析的方法[2]是以边沿检测、聚类分析等方法确定备选的文字区域,进而用特定的启发式策略逐一排除非文字区域。混合算法可以综合前两者的优势,能够应对图像的尺度变换、旋转等干扰因素[3]。但这类算法往往需要建立复杂的决策规则或计算大量的模型参数,因此实用性受到很大限制。
相对于静态的图像数据而言,视频数据的时空线索在文字定位、分析过程中具有独特的优势。近年来,研究者们已经对视频文字定位问题做出了很多有益的探索。然而,目前而言仍然有很多问题还没有得到很好的解决,比如强烈的尺度变化、畸变、遮挡、成像质量退化等[4]。针对图像文字识别过程中文字形状畸变的问题,基于连通区域分析的方法[5]取得了一定的效果。该方法在颜色量化后通过区域增长将空间近邻并且特征相似的像素连接成相连通的区域,不易受文字形状拓扑变化的影响。遗憾的是,基于连通区域分析的方法其效果对影像质量的依赖程度较高,而视频数据在增加时间分辨率的同时往往要牺牲成像质量。对于成像尺度因素,文献[6]Wu等人在多个尺度上进行纹理特征分析,取得不错的效果。但该方法计算代价较高,在处理视频数据时难以满足实时性的要求。Garcia和Apostolidis[7]提出一种边缘朝向变异特征,该特征能有效刻画文字区域由于笔划朝向多样性所带来的边缘朝向分布特性。Shivakumara等人[8]基于边缘特征,以贝叶斯分类器进行像素级的分类,进而通过区域增长技术得到文字区域。这一类方法能够应对文字旋转因素,但难以检测到平行笔划较多的文字。
本文提供了一种鲁棒的视频文本定位方法,该方法以改进的连通区域分析框架有效应对文字旋转、畸变和尺度变化因素,并利用子域映射技术以保障在视频数据中获取充分的信息。
1 方法
本文所提出的方法以迭代模式进行视频文字定位,其技术流程如图1所示。该方法有五个主要的技术模块:数据增强用以提升边缘响应的对比度;连通区域分析用以连接备选文字像素;帧间校验用以甄选备选的文字区域;子域映射用以挖掘多通道颜色信息进行备选区域的描述;分类进行特征描述与分类以实现文字区域与非文字区域的判别。
1.1 数据增强
边缘是在影像中进行物体划分最直观的物理属性。通常而言,影像中的文字与其背景介质相比具有极高的对比度。因此,在分割文字目标时,边缘信息能够提供强有效的线索。然而,由于视频数据的帧率较高,单帧影像的曝光时间较短,导致影像中边缘模糊、对比度下降、噪声增强等质量退化问题。对此,本文以二阶拉普拉斯算子进行视频数据的边缘增强[9],提升边缘信息的对比度。
首先,采用亮度-色度颜色空间对影像进行表达。然后,针对亮度通道进行差分操作获取图像边缘,并在亮度通道对边缘位置的像素进行增强。具体算子定义如下:
式中,l(x,y)为(x,y)位置的原始亮度值,f(x,y)为增强后的亮度值。最后,采用形态学闭操作填充局部不相一致的像素。
以上策略一方面可以羽化边缘,从而使得文字的边缘与背景介质的对比度加大;另一方面还可以抑制噪声,使得到针对每个目标可以获取较为平滑的边缘。
1.2 子域映射
视频文字定位问题的另一个关键是颜色的表达。计算机视频采用的颜色模型为RGB三基色模型,该模型便于颜色的硬件实现而不能很好地拟合人的主观视觉体验。生理心理学的有关研究表明,人类感知系统的早期视觉感知符合拮抗原则(视觉四色说)而非混合原则(视觉三色说)[10]。色觉拮抗原则认为人眼对光反应的基本视觉单位是成对组织的,包括红-绿、黄-蓝两对原色,加上黑-白共组成三对拮抗。也就是说,色度-亮度分离的颜色空间,比如Lab、YCbCr、HSV等,更符合人的感知。然而,目前为止并没有单独一种颜色模型能够充分契合人的颜色感知过程。如何综合多种颜色空间而挖掘其中最为本质的颜色子域以有效表征颜色,是一个值得深入研究的问题。对此,机器学习领域中有很多线性、非线性的特征抽取技术能够发挥作用。
本文以主成分分析(principle component analysis,PCA)为例来说明颜色模型的子域映射方法。视频数据以{Xi,t}=i,1,2,…,N,t=1,2,…,M表示,其中N为单帧中的像素数,M是帧数。Xi,t是像素的9维颜色向量[h,s,v,L,a,b,Y,Cb,Cr],分别对于HSV、Lab、YCbCr颜色空降的三个通道。依据该数据计算协方差矩阵:
1.3 连通区域分析
本文基于连通区域分析框架进行文字成分提取。连通区域(Connected Component)一般是指影像中取值相同且将空间上具有连续关系的像素点组成的图像区域。连通区域分析(Connected Component Analysis)旨在将图像中的各个连通区域找出并标记。再此基础上,后续进一步的处理、分析过程可以各个群体为单位进行。
本文的连通区域分析过程包含4个环节:(1)在子域映射表达后对连续5帧的影像进行聚类分析,赋予每个像素以类别标签;(2)对每帧影像单独进行连通区标记;(3)对连通区域标记蒙板进行形态学闭操作,消除较小的孤立团(约5个像素);(4)对相邻两帧影像所标定的连通区域计算交叠面积,并将交叠面积较低的连通区域去除。
聚类过程中以k均值算法实现类簇的划分。设qi,t为第t帧标签为i的连通区域,若qi,t与其前一帧关联区域qj,t-1的重叠比R小于0.5,则排除qi,t。j与R通过以下公式确定:
1.4 文字分类
经过连通区域标记后,我们从原始影像中获取了一些文字目标疑区。对于这些文字目标疑区,传统的方法设定了一系列的针对形状轮廓、边缘朝向等方面的启发式规则来最终判别该区域是否包含文字,比如笔画宽度变化(Stroke Width Transform)[2]、边缘朝向变异性[7]等。这些启发式规则通常是针对特定的语种和特定的问题背景来设立,因此在使用过程中具有较大的局限性。得益于机器学习和模式识别领域的飞速发展,有很多优秀的工具能够以强大的学习能力在大量数据中建立模式,支撑我们进行数据驱动的算法设计。
针对文字定位这一特定任务,本文以矩朝向直方图(Histogram of Oriented Moments,HOM)[11]进性文字目标疑区的特征描述。HOM特征针对待测区域以二阶几何矩检测朝向,以直方图统计的方式描述待测区域的主朝向,具有旋转、尺度、拓扑变换不变性。HOM特征提取形式如图3所示。在得到文字疑区的特征表达之后,本文以SVM算法进行二分类鉴别,最终判定待测区域是否为文字区域。
2 实验与分析
为了验证本文所提方法的有效性,实验中采用公开数据集ICDAR 2013[12]对算法的性能进行分析。ICDAR 2013数据集包含24段不同场景的视频,视频中有不同类型的文字呈现,包括不同字体、尺度、朝向。本文所提方法的模型参数是在ICDAR 2013数据集的训练集上进行学习,分类过程中的SVM算法采用RBF核函数。实验中选用了4种现有算法进行比较分析,算法的性能以3个指标进行评价:准确率(Precision)、召回率(Recall)、F分数(F-measure)。
表1给出了本文所提出的算法与4种对比算法的结果比较。从表中可以看出,本文的算法在3个性能指标上都明显优于对比算法。为了进一步解析本文算法性能优势的来源,实验中分离了算法主要环节的作用,结果如表2所示。其中需要特别说明的是,排除子域映射是指算法直接以RGB颜色模型进行颜色表达;排除连通区域分析是指算法直接与滑窗方式检测文字,以窗口内的边缘特征作为特征输入;排除SVM分类是指算法在HOM特征提取后以硬分割方式判定是否为文字区域。从表2中可以看出,排除特定策略后本文的算法性能显著退化。由此可以推断,本文算法中这些主要环节的策略都是有效的、必要的。
3 结束语
随着现代网络通讯技术的飞速发展,视频数据已逐渐成为人们交流信息的主要载体。在视觉数据中,常常会携带一些文字,而这些文字往往包含着影像内的重要信息,比如交通标识、数据报表、演示文稿等。因此,对视频内的文字进行精准定位进而准确识别,在视频内容的高层语义理解过程中起着极其重要的作用。自然场景的视频数据由于成像条件复杂,给文字定位带来了很多技术难点,比如成像尺度变化、畸变、遮挡、成像质量退化等。
本文提供了一种鲁棒的视频文本定位方法,该方法以改进的连通区域分析框架有效应对文字旋转、畸变和尺度变化因素,并利用子域映射技术进行颜色空间的表达以保障在视频数据中获取充分的信息。实验结果表明,本文所提出的算法较对比算法而言具有更好的文字定位效果,且其中所涉及的核心策略对算法的总体性能都起到了积极的保障作用。
基于子域映射的视频文字定位方法在电力现场手持终端中的应用能降低电力现场施工人员的文字信息输入难度,提高工作效率,减少工作失误,为电力现场手持终端的普及应用提供了必要的技术手段。
参考文献
[1] CHEN X, YUILLE A L. Detecting and reading text in natural scenes[C]. IEEE Conference on Computer Vision and Pattern Recognition. 2004: 366-373.
[2] EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform[C]. IEEE Conference on Computer Vision and Pattern Recognition. 2010: 2963-2970.
[3] SHIVAKUMARA P, PHAN T Q, TAN C L. A laplacian approach to multi-oriented text detection in video [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence. 2011, 33(2): 412-9.
[4] ZHANG J, KASTURI R. Extraction of text objects in video documents: recent progress[C]. IAPR International Workshop on Document Analysis Systems. 2008: 5-17.
[5] ZHONG Y, KARU K, JAIN A K. Locating text in complex color images[C]. International Conference on Document Analysis and Recognition. 2002: 146.
[6] WU V, MANMATHA R, RISEMAN E M. Finding text in images [C]. ACM International Conference on Digital Libraries. 1997: 23-26.
[7] GARCIA C, APOSTOLIDIS X. Text detection and segmentation in complex color images[C]. IEEE International Conference on Acoustics, Speech, and Signal Processing. 2002: 2326-2329.
[8] SHIVAKUMARA P, SREEDHAR R P, PHAN T Q, et al. Multioriented video scene text detection through bayesian classification and boundary growing [J]. IEEE Transactions on Circuits & Systems for Video Technology. 2012, 22(8): 1227-1235.
[9] MA T, LI L, JI S, et al. Optimized laplacian image sharpening algorithm based on graphic processing unit [J]. Physica A Statistical Mechanics & Its Applications. 2014, 416: 400-410.
[10] BUCHSBAUM G, GOTTSCHALK A. Trichromacy, opponent colours coding and optimum colour information transmission in the retina [J]. Proceedings of the Royal Society of London. 1983, 220(1218): 89.
[11] KHARE V, SHIVAKUMARA P, RAVEENDRAN P. A new histogram oriented moments descriptor for multi-oriented moving text detection in video[J]. Expert Systems with applications. 2015, 42(21): 7627-7640.
[12] KARATZAS D, SHAFAIT F, UCHIDA S, et al. ICDAR 2013 robust reading competition[C]. International Conference on Document Analysis and Recognition. 2013: 1484-1493.
作者信息:
武立平,王文贤,马维青
(国网山西省电力公司阳泉供电公司,山西 阳泉 045000)