《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 基于多特征的打印文件层级分类研究
基于多特征的打印文件层级分类研究
2016年电子技术应用第3期
周晶晶,陈庆虎,彭文花,鄢煜尘
武汉大学 电子信息学院,湖北 武汉430072
摘要: 打印文件鉴别是一种广泛应用于安全领域的取证技术,因此对其检测的准确率和速度均有较高要求。考虑到单个特征的信息不全,基于多特征融合的方法来提高准确率,同时使用基于AdaBoost的SVM级联分类器进行分类判定。研究过程包括数据采集、图像预处理、GMM和LBP特征提取、特征融合、单个SVM分类器分类以及基于AdaBoost的层级SVM分类器分类。通过对4 000张图片集提取GMM和LBP特征,然后进行特征融合,输入分类器分类,结果表明,该方法能够在一定程度上提高鉴别的准确率和速度,具有良好的可扩展性。
中图分类号: TP391.4
文献标识码: A
DOI:10.16157/j.issn.0258-7998.2016.03.032
中文引用格式: 周晶晶,陈庆虎,彭文花,等. 基于多特征的打印文件层级分类研究[J].电子技术应用,2016,42(3):113-115,119.
英文引用格式: Zhou Jingjing,Chen Qinghu,Peng Wenhua,et al. Printed document identification with cascade classifier based on multi-feature[J].Application of Electronic Technique,2016,42(3):113-115,119.
Printed document identification with cascade classifier based on multi-feature
Zhou Jingjing,Chen Qinghu,Peng Wenhua,Yan Yuchen
School of Electronic Information,Wuhan University,Wuhan 430072,China
Abstract: Printed document identification is a kind of technology which is widely used in the security field. So it needs higher accuracy and speed. Considering the information of a single feature is not complete, this paper improves the accuracy based on multi-feature. The research process includes data acquisition, image preprocessing, GMM and LBP feature extraction, feature fusion, SVM classifier and cascade detector. Through extracting the GMM and LBP features from 4 000 image sets, the feature fusion is performed, and the results show that the proposed method can improve the accuracy and speed of the identification in a certain extent.
Key words : gaussian mixture model;local binary pattern;feature fusion;cascade classifier;print document identification

0 引言

    随着信息时代的发展,各类图像处理软件及高质量激光打印机应运而生,与此同时激光打印机的成本越来越低,这导致其越来越普遍。激光打印机的使用数量增长,犯罪分子制造伪证的技术更加高明,所以取证技术变得非常重要。打印文件的鉴别是一种广泛应用于安全领域的取证技术,可以通过对打印文件的分析判别打印设备的特性,当发现打印设备伪造假文件时,即可帮助抓获犯罪分子。

    自打印机应用以来,打印文件鉴别相关的研究有很多,针对传统的喷墨打印机多通过分析打印文件中的墨粉、墨水等打印材料,查找打印机在打印文件中留下的痕迹,有基于墨粉纹理进行的研究[1]。随着激光打印机的普遍,越来越多的研究从打印机文件中提取打印特性的各种特征,Delp等人[2]提出了利用不同激光打印机的不同条带频率进行识别的方案,然而这种方法并不适用于文本文档。由于条带频率方案不能用于文本文档,Deng等人[3]提出了一种激光打印机识别文本文档的方法,他们通过字符匹配来进行识别。Mikkilineni 等人[4]利用灰度共生矩阵特征(GLCM)方法, 通过提取特定字体的打印字符“e”的纹理特征来鉴别打印文件的源打印机。Choi等人[5]提出基于小波变换的打印机识别方案。

    本文算法思想是基于多特征融合和层级分类器来提高准确率,通过源于10台打印机的4 000张图片来进行验证,证明该方法能在一定程度上提高检测准确率和速度。

1 图像特征提取

1.1 高斯混合模型

    高斯混合模型(GMM)是一种利用多个单高斯函数建模的方式,其概率密度函数是由多个高斯概率密度函数加权求和得到的,如下所示:

w3-gs1.gif

    对于打印字符,字符、字符边缘以及背景三部分具有显著的差异,这是典型的聚类问题。图1(a)所示为原始图像,图1(b)所示为三阶高斯混合模型建模后的图像,图中灰度值为零(黑色)的部分表示字符本身,灰度值为255(白色)的部分表示字符边缘,灰度值为128(灰色)的部分表示纸张背景,可以看出三阶高斯混合模型描述出了字符图像的三部分信息。

w3-t1.gif

1.2 LBP算子

    局部二值模式(LBP)是由OJALA T[6]等人提出的一种简单但非常有效的描述图像局部纹理特征的算子,原始的LBP特征提取是通过在3×3的矩形框内,以矩形框中心点gc的灰度值作为阈值,与周围领域内像素点(g0,g1…gp-1)的灰度值进行比较,得到的二进制码来表征图像的纹理特征。gc的LBP特征值LBP(P,R)定义为:

    w3-gs2.gif

    本文采用圆域均匀模式的LBP算子,对于测试图像集X={x1,x2…xN},通过将字符图像划分为若干个区域,计算该区域内所有像素点的LBP特征值,再统计该区域的LBP特征直方图,最后将LBP特征谱的统计直方图作为纹理分类的依据,最终的LBP图谱直方图如图2所示。

w3-t2.gif

2 多分类器级联算法

    多分类器级联训练算法如图3所示,SVM作为基分类器,每一级训练结果作为一个分类器模版,使用boosting[7]策略集成融合,具体训练步骤如下:

w3-t3.gif

    (1)输入样本集X={x1,x2…xN},对应的Y={y1,y2…yM}为类别矩阵。

    (2)初始化样本权重。

    (3)设置级联层级T,对于t=1,2…T,根据样本权重选择训练样本,训练每一级分类器Ht,新一层分类器会侧重上一轮分错的样本,也就是难以区分的样本,下文称之为hard样本。同时每一轮训练会加入部分新样本,提高级联分类器的稳定性和适应性。

    (4)测试所有训练样本,计算每一轮的错误率et。

    (5)当满足错误率小于0.5时,计算分类器权重w3-gs3-s1.gif

    (6)更新权重,分类错误的样本权重增加,分类正确的样本权重减少,计算公式为 :

    w3-gs3.gif

3 实验与分析

    为了测试本文的方法,建立了包含10台激光打印机的打印文件数据库,该数据库共有4 000张完整图像集,分别使用单一SVM分类器与级联分类器作对比性研究,选取原始数据的3/4作为训练集,剩下的作为测试集。由于训练样本是随机挑选的,实际试验中在相等训练集大小的情况下做了10次测试,并取测试的平均值作为识别率。具体实现步骤如下:

    (1)特征提取。本文采用三阶高斯混合模型,每一个高斯模型有均值、均方差、权重3个参数,最终特征集为9维。LBP特征提取采用圆域均匀模式LBP算子,圆域半径r=2.5,取样点p=12,LBP纹理特征向量以图像的分块LBP直方图表示,其中N=14。

    (2)特征融合。实验中采用的是加权融合的办法,具体思路是:

    ①归一化:为了消除量纲影响,对数据集进行归一化操作,统一数据的标准,归一化操作之后,GMM和LBP特征集就会被统一到一个特定的区间中。

    ②加权:通过循环判定,找出最优权重,权重计算公式如下:

    w3-gs4-6.gif

其中,wGMM表示GMM特征集的权重,wLBP表示LBP特征集的权重,w0x(x=0,1)表示权重,初始值为w00=0,w01=1,步长step=0.01,k的取值为0,1,2…,50。最终取得的最优权重为wGMM=0.54 ,wLBP=0.46。

    ③融合:GMM特征集的大小为4 000×9,LBP特征集大小为4 000×14,本文将GMM 的9维特征和LBP的14维特征融合成23维特征,图像特征数量和种类的增加会更好地改善分类结果。特征融合模型图4所示。

w3-t4.gif

    通过上述加权融合算法将GMM特征和LBP特征融合在同一特征空间中,分别对GMM和LBP单一特征集及融合特征集做分类研究,表1所示为SVM分类器的鉴别结果,GMM特征集和LBP特征集鉴别的准确率分别为85.5%和84.7%。因为打印机自身的差异性以及打印设备使用过程中的不稳定性,导致鉴别结果有一定的误差,例如打印过程中可能出现的喷墨漏墨以及断笔等情况,会一定程度上影响鉴别结果。融合特征集鉴别的准确率为94.45%,说明高斯混合模型和局部二值模式相结合的算法可以提高打印文件识别率。

w3-b1.gif

    表2所示为GMM特征集、LBP特征集和融合特征集输入级联分类器的结果。对比表1的数据,级联分类器一定程度上提高了分类的准确度,融合特征集的识别率高达97.10%,验证了本文算法的可行性。图5所示的混淆矩阵描述了每一类打印样本的识别效果。分类器级联层数会影响分类的速度,图6为训练10轮得到的层级分类器错误率,三层级联即可取得较好的处理效果,级联五层之后分类的准确率变化不大,基本趋于平稳,本文选取的是五层SVM分类器级联。

w3-b2.gif

w3-t5.gif

w3-t6.gif

4 结语

    众所周知,纹理分析有许多潜在的应用,比如金属表面、遥感图片等,纹理分析应用于打印文件鉴别中常用的是灰度共生矩阵,但是灰度共生矩阵的计算量太大,本文采用GMM和LBP特征集相结合的方法,特征集维度为23维,大大降低了计算量。同时,由于单一特征集包含的图片信息不全,鉴别准确率不高,采用多特征会大大提高鉴别的准确率与速度。

    GMM特征多用于语音识别,LBP特征常见的应用场景是人脸识别,本文将这两种特征应用于打印文件鉴别,是一个重大突破。同时训练了基于AdaBoost的SVM级联分类器,提高了分类的准确度,使得打印文件鉴别工作的研究在安全领域的应用更加可靠。

参考文献

[1] 邓伟.基于打印墨粉纹理分析的打印文件检验研究[J].电子测量技术,2014,37(2):70-74.

[2] MIKKILINENI A K,KHANNA N,DELP E J.Texture based attacks on intrinsic signature based printer identification[C].IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics,2010:175-178.

[3] DENG W,CHEN Q,YUAN F,et al.Printer identification based on distance transform[C].First International Conference on Intelligent Networks and Intelligent Systems.IEEE Computer Society,2008:565-568.

[4] MIKKILINENI A K,CHIANG P J,ALI G N,et al.Printer identification based on graylevel co-occurrence features for security and forensic applications[C].Proceedings of SPIE-The International Society for Optical Engineering,2005,5681:430-440.

[5] CHOI J H,IM D H,LEE H Y,et al.Color laser printer identification by analyzing statistical features on discrete wavelet transform[C].Image Processing(ICIP),2009 16th IEEE International Conference on.IEEE,2009:1505-1508.

[6] OJALA T,PIETIKAINEN M,HARWOOD D.Performance evaluation of texture measures with classification based on Kullback discrimination of distributions[C].Pattern Recognition,1994.Vol.1-Conference A:Computer Vision & Image Processing.,Proceedings of the 12th IAPR International Conference on.IEEE,1994,1:582-585.

[7] VIOLA P,JONES M.Fast and robust classification using asymmetric AdaBoost and a detector cascade[C].Advances in Neural Information Processing Systems,2002,14:1311-1318.

此内容为AET网站原创,未经授权禁止转载。