王婧,彭亚雄,贺松,陈余
(贵州大学 大数据与信息工程学院,贵州 贵阳 550025)
摘要:基于生物特征识别的身份认证技术已经应用于多个领域,然而单一的生物特征有各自的优缺点,为了提高身份认证的安全性和鲁棒性,对多生物特征进行融合便成为了身份认证技术新的研究方向。将指纹识别和声纹识别通过加权融合的方法在匹配层进行融合,实验结果表明,融合系统的等错误率(EER)比指纹识别和声纹识别提高了0.3%~0.4%,证明了融合系统识别率有所提高。
关键词:指纹识别;声纹识别;融合;生物特征
0引言
在当今这个信息发展的时代,身份认证技术是保障信息安全的重要技术之一。由于人体的生物特征有指纹、声纹等,因此属于身体特征的识别方式有:指纹识别[1]、手指静脉识别[1]、人脸识别[2]、声纹识别[3-4]等。之所以生物特征被广泛地应用于身份认证,是因为这种认证方式具有稳定性、无须记忆等优点。
虽然生物特征识别技术有着众多的优点,但是它在现实中的应用并没有想象中那么广泛,而造成这种情况的原因有很多,如:利用指纹套复制指纹、说话人声音的变化都会影响声纹识别的效果。因此,将多种生物特征相结合既可以很好地弥补单一生物特征自身所带来的缺陷,又可以提高身份认证的识别率。
本文研究说话人识别与指纹识别的融合方式,采用自适应加权融合方法,在分别对说话人识别与指纹识别进行研究之后,对自适应加权融合系统的识别率进行研究,经过实验结果的比较,证明融合的识别效果要比单一生物特征的识别率好。
1基于指纹识别的身份认证
1.1指纹图像建模
使用指纹[5]来进行身份认证,建模时,系统对指纹图片进行特征提取,所提取的特征点为端点和分叉点,并生成模板,而在特征提取前需要对图片进行预处理,通过确定的中心点的位置来确定分叉点,最后得到的指纹特征用特征位置和方向来表示。指纹图像所提取的特征点如图1所示。
1.2指纹识别
在识别阶段,所用的匹配方法是基于特征点模式,利用指纹图像的细节点坐标模型来做细节匹配,该方法是利用端点和分叉点来进行指纹识别,它是利用几何关系来判定模板图像与测试图像的两组特征点位置特性的相似度,并且采用打分的方式输出匹配的结果。具体的匹配方法可参阅参考文献[1]。
1.3实验
在进行指纹识别的研究时,本次实验所用的数据是51个人的指纹数据,每个人有不同的8张指纹图片,为了实验方便,在实验的过程中均采用每个人的第一张图片作为模板,剩余的7张图片作为测试图片,所得指纹识别系统的EER为0.367 8%。
2基于声纹识别的身份认证
2.1声纹识别系统
声纹识别又称为说话人识别,其识别过程与指纹识别类似,首先需要对说话人语音进行提取特征建模,然后再对测试语音提取特征并与模板进行匹配,得到相应的匹配结果。在本文中,声纹识别所使用的模型为高斯混合模型通用背景模型(GMMUBM)[67]。所提取的特征是39维的MFCC(Mel频率倒谱系数)特征,其中包含13维的MFCC特征,并对每个特征向量进行一阶、二阶的动态差分。
2.2实验
声纹识别实验所使用的数据库是清华大学语音和语言技术中心所录制的数据库,为了便于融合,所取人数与指纹实验人数相同,同为51人。与指纹识别不同的是,声纹的训练语音为12条8位的数字串,且这12条语音合为一条语音来训练模型,训练语音为7条8位的数字串,所得声纹识别系统的EER为0.476 7%。
3自适应加权融合系统
3.1融合框架
本文中所称的融合即数据融合,对应于数据的抽象层次,可将数据融合分为4个层次:数据级融合、特征级融合、匹配级融合和决策级融合,在本文中将会在匹配级采用自适应加权的融合算法。
3.2加权融合算法
匹配级融合有很多算法,但是较为简单的方法是对子模块的匹配值进行加权融合。而对于融合子模块匹配值的常用方法有两种:加法融合和乘法融合。其中乘法融合不常用,这是因为当其中一个子模块本身匹配值极大或者极小时,融合的最终结果都会受到该子模块的影响。而对于加法融合,各个子模块的匹配分数之间没有十分紧密的联系,因此,即使某一个子模块的匹配分数出错,也不会对整个融合的结果有太大的影响。
3.3归一化处理
由于每一个子模块的模型不同,因此所得的匹配分数的形式也会有所不同,例如后验概率、距离度量等。本文中的指纹识别匹配分数是利用几何关系来判定模板图像与测试图像的两组特征点位置特性的相似度,而声纹识别的匹配分数是求特征矢量序列X由说话人s产生的后验概率。显然这两种匹配值不可以直接用来当作融合系统的输入匹配值,在融合之前,需要对两种匹配值进行归一化处理。
常用的数据归一化方法有MinMax方法、MediaMAD方法、ZScore方法等,对于众多的方法,本文采用MinMax方法进行数值归一化处理。最大最小值归一化方法是:将所需处理的数值全都转化到[0,1]的区间。假设有N个匹配距离值{dn}n=1,2,…,N,计算公式为:
d′n=dn-dmindmax-dmin,d∈[0,1](1)
其中,dmax和dmin分别是{dn}n=1,2,…,N的最大值和最小值。
3.4融合算法和权重的分配
假设声纹识别子系统和指纹识别子系统均有M个归一化后的匹配值,分别记为:指纹子系统{s(Ofinger|λi)}i=1,2,…,M和声纹子系统{s(Ospeaker|λi)}i=1,2,…,M ,根据加权的加法融合方法,融合后的匹配计算公式为:
s(OfingerOspeaker|λi)=αs(Ospeaker|λi)+βs(Ofinger|λi),
i=1,2,…,M(2)
其中,α+β=1;s(OfingerOspeaker|λi)表示在输入声纹识别子系统和指纹识别子系统的归一化匹配值后的联合匹配分数,与单一子系统的匹配分数相同,分数值越高,表明测试体与模板越匹配,反之,则不匹配。
为了得到一个稳定且可靠的融合系统,将指纹识别数据库和声纹识别数据库的人数分为3组,分别为A组、B组、C组,将采取3组测试。第一组测试,取A组的数据来确定权值,融合权重的α值将从0取到1,其中以0.05的步长逐渐递增,如此可得到21组融合后的数值,从这21组的数值中可找出EER最小的一组权值作为融合系统最优的权重,并用这组权重值对B组和C组的数据进行加权融合,得到EER1。依照相同的方法进行其余两组测试,且分别用B组、C组的数据确定权值,并得到相应的EER2和EER3。比较3个EER值的大小,得到最小的EER值,而该值所对应的权值即为整个融合系统最优的权重,也是最终所采用的权重。
4实验
4.1数据库
加权融合所使用的数据库就是之前指纹识别与声纹识别所使用的数据库,两方各51人,每个人都有8条数据,且取第一条数据来训练模型,得到训练集;剩下的7条数据做测试,得到测试集。
4.2实验结果及分析
根据第3节所提到的方法得到的最优权重,使用该权重对数据进行融合,对于系统的性能,将会以EER的值来体现,具体的实验结果如图2所示。从图2可以很明显地看出,当α的值从0到1以0.05的步长逐渐增长时,EER的值呈U形曲线变化;当α的值为0.55时,EER的值达到最小,其值为0.013 11。换言之,此时的融合系统达到最好的状态,其识别率和稳定性优于取其他权重的时刻。较单一的指纹识别或是声纹识别,加权融合的EER有了很大的提高,说明采用加权融合的方法将声纹识别和指纹识别相结合是有利于系统性能的。
5结论
无论是基于哪种生物特征识别的身份认证技术,它们都有各自的优势和劣势,为了更好地提高身份认证的安全性和识别率,可以从多个层次考虑多个生物特征识别的融合。本文在匹配层采用加权融合的算法对声纹识别和指纹识别进行融合,实验结果也证明了融合效果要好于单一的生物特征识别,同时也证明了融合的可行性。在今后的研究中,可以从其他层次对两种识别进行融合,以求得到更好的融合系统。
参考文献
[1] 李雪峰.基于指纹与手指静脉的双模态识别算法研究[D].哈尔滨:哈尔滨工程大学,2010.
[2] 陈倩.多生物特征融合身份识别研究[D].杭州:浙江大学 2007.
[3] 熊振宇.大规模、开集、文本无关说话人辨认研究[D].北京:清华大学,2005.
[4] 陶佰睿,郭琴,李春辉,等.声纹认证前端音频预处理SOPC设计[J].电子技术应用,2014,40(9):2426.
[5] 曾杰,吴晓红,吴小强,等.基于QT/E和指纹识别模块的岩屑图像采集系统的设计[J].微型机与应用,2014,33(24):3841.
[6] KENNY P. Bayesian speaker verification with heavy tailed priors[C]. Speaker and Language Recognition Workshop (IEEE Odyssey), 2010.
[7] GHARAMANI Z, HINTON G E. The EM algorithm for mixtures of factor analyzers[R]. Technical Report CRGTR961, Department of Computer Science, University of Toronto, 1996.5.