刘凯
(长江大学 工程技术学院, 湖北 荆州 434023)
摘要:在数字语音真伪技术中,基于电网频率的检测方法是当前研究的热点。由于数字录音设备在录音过程中不仅记录语音内容本身,还携带微弱的电网电压或电流信号,利用Duffing共振理论来提取数字录音信号中的微弱电网信号,根据其输出特征参数的幅频特性和相频特性来判断录音文件的真伪性。通过实验分析论证了该方法的可行性和实用性,为数字录音真伪鉴别技术提供了一条新的研究方向。
关键词:语音真伪鉴别;电网频率;Duffing共振;特征参数
0引言
近年来,数字多媒体技术飞速发展,数字信息已经渗透到人们生活的方方面面。在语音处理技术领域,人们已经可以很方便地获取语音信号,并利用音频编辑软件对其进行有意或无意的编辑和修改,这种篡改行为对语音数据的安全性构成了强大的威胁。随着数字信息已逐步应用于司法取证,语音真伪检测技术也逐渐成为国内外学术界研究的热点。
电力系统是促进国家发展的基本因素之一,公用的电网信号可以看成是一个正弦波,它有一个固定的频率,该频率称为电网频率(Eleetrie Network Frequency,ENF)[1]。电网提供的大部分电力都是来自于能产生交流电的涡轮,这些涡轮的转速便决定了电网频率,正常运行的电网频率值是50 Hz或60 Hz,中国的电网频率值是50 Hz。电网频率变化具有均一性和唯一性,其波动不仅表征系统的动态行为,而且承载丰富的时间信息。由于数字录音的原理与模拟磁带录音不同,无法在磁踪迹和抹音磁头上找到录音开始、停顿和终止等物理特征,因而迫切需要寻找其他的鉴别方法。GRIGORAS C将电网频率变化与数字录音真伪鉴别联系起来,提出电网频率准则[25]。该方法认为数字录音设备在录音过程中不仅记录语音内容本身,而且还因该设备由电网直接供电的缘故而捕获到微弱的电网电压或电流信号;若录音设备采用电池供电,周围其他的用电设备产生的电磁场也有可能感应出电信号,在录音记录中留下感应信号的踪迹[67]。近年来,随机共振在信息技术领域的应用已经有了相当大的发展,例如基于随机共振的信号检测方法为强噪声背景下弱信号的提取提供了新的途径[8]。因此可以考虑利用Duffing共振理论来提取录音信号中的微弱电网或电压信号,从而判断录音文件的真伪性。
1Duffing共振理论基础
Duffing方程的一般形式为[9]:
其中,γ是阻尼系数;κ、ζ为常数;FcosΩt是系统的外力项;Ω是外力项频率。式中正、负号分别表示硬弹簧和软弹簧两种情况。理论情况下,在线性系统中当强迫力的频率与系统本身的频率相同时,系统会出现共振现象,在非线性系统中也会出现类似的情况。
无阻尼情况下Duffing方程为:
令κ=ω20 ,ζ=εβ20,其中ε>0,引进多重时间尺度变量,如多重时间尺度[10],有:
认为函数x不仅依赖于ε和t,还依赖于T0,T1,T2,…,Tn,有:
x=x0(T0,T1,…,Tn)+εx1(T0,T1,…,Tn)+…(4)
得到式(2)的一阶近似解:
考虑有阻尼的Duffing方程:
令α=α(T2,T3,…,Tn),ω=ω0+3β20α28ω0ε ,θ0=θ(T2,T3,…,Tn)
仅考虑无阻尼Duffing方程的通解,式(7)的通解为:
x(t)=αexp(-γt)cos(ωt+θ0)(8)
其中,α为振幅,ω为角频率,θ0为初始相位。
考虑有外力驱动的情况(式(1)),即当式(8)中ω=Ω时系统发生共振。
当在t(0+)时刻输入一个脉冲响应δ(t),系统的时域函数为h(t),由δ(t)*h(t)=x(t),可以得出H(s)=X(s),即h(t)=x(t)。
2基于Duffing共振的语音真伪检测技术
该检测技术具有如图1所示的步骤。
(1)首先对待检测录音信号进行预处理。预处理包括抗混叠滤波,预加重和分帧加窗。
(2)对预处理的录音信号进行快速傅里叶变换(FFT变换)得到其频谱特性。
(3)将频域信号通过一个Duffing共振带通滤波器,带通滤波器的中心频率为50 Hz,该滤波信号即为提取到的电网信号。通过第1章Duffing共振理论的介绍已经得出了模拟滤波器的单位冲击响应h(t),对其进行拉普拉斯变换就可以得到模拟带通滤波器的系统函数H(s),然后通过双线性变换就可以得到数字带通滤波器的系统函数H(z),该滤波器的幅频特性如图2所示。
(4)画出该滤波信号的幅频图和相位图。
(5)根据幅频图和相位图上有无突然的跳变来判断音频是否发生过篡改操作。图2Duffing共振带通滤波器的幅频特性
3实验和分析
有4段待检测录音音频,都是由计算机的麦克风录音,录音和篡改软件为Cool Edit Pro V21简体中文版,分别对应音频1、音频2、音频3和音频4。其中音频1为女生未经过篡改的原始录音,录音内容为“零”, 音频2为男生未经过篡改的原始录音,录音内容为“零”,将音频1复制粘贴到音频2为音频3,内容变为“零零”,将音频1由软件加入频率为50 Hz的合音得到音频4。分别对音频1、音频2、音频3和音频4用基于Duffing共振的篡改检测方法进行真伪检测,检测流程如图1所示。
图3~图6分别为音频1、音频2、音频3和音频4的时域波形图,图7~图10分别为音频1、音频2、音频3和音频4经系统后的频谱图。
从图7、图8可以看出,没有经过篡改的音频信号经过系统后的频谱图具有比较好的双峰性,而且第一个峰的频率在50 Hz。图9是经过篡改后的音频信号经系统后的频谱图,从图中可看出只有一个峰值,而且峰值处的频率为100 Hz。
由此可以得出结论,经过篡改后的音频信号经过系统后的频谱会发生较大的突变,频谱的中心发生搬移。
图9与图7的幅频图完全一致,人为添加计算机合成的同频率音频对音频信号通过系统后的幅频特性没有影响。图11和图12分别为音频1和音频4通过系统后的相频图,从图中可以看出,音频4的相频特性较音频1相位发生了很大的变化。
4结论
本文研究了一种基于Duffing共振的语音数字语音真伪鉴别技术,通过实验,对比实验结果,经复制粘贴篡改操作的音频信号经过Duffing共振系统,其幅频特性会发生较大的变化;而经计算机软件添加合成音频的音频信号经过Duffing系统后,其幅频特性基本不变,变化的是相频特性。由实验可以得出:基于Duffing共振的数字语音真伪鉴别具有一定的可行性和实用性,在以后的研究过程中,还会进一步探讨该系统在其他数字语音篡改技术中的应用。
参考文献
[1] GUPTA S, CHO S, JAYKUO C C. Current developments and future trends in audio authentication [J]. IEEE Multimedia, 2012,19(1): 5059.
[2] GRIGORAS C. Digital audio recording analysis: The electric network frequency criterion[C]. Diamond Cut Productions, Inc., Applications Notes AN4, 2003.
[3] GRIGORAS C. Digital audio recording analysis: the electric network frequency (ENF) criterion [J]. The International Journal of Speech Language and the Law, 2005, 12(1):6376.
[4] GRIGORAS C. Applications of ENF criterion in forensic audio, video, computer and telecommunication analysis [J]. Forensic Science International, 2007(167):136143.
[5] GRIGORAS C. Applications of ENF analysis in forensic authentication of digital audio and video recordings [J]. The Journal of Audio Engineering Society, 2009, 57(9):643661.
[6] 杨林国.词类扩充方法在语音识别中的应用[J].电子技术应用,2014,40(6):123125,129.
[7] 赵媛媛,王力.基于流形学习ISOP算法的语音特征提取及应用研究[J].微型机与应用,2014,33(1):4345,49.
[8] 赖志慧,冷永刚,孙建桥,等.基于Duffing振子的变尺度微弱特征信号检测方法研究[J].物理学报,2012,62(5):05050310505039.
[9] 王海波.Duffing方程非线性振动特性的计算和分析[D].西安:西安建筑科技大学,2009.
[10] 徐博侯,曲绍兴.非线性力学导论[M].杭州:浙江大学出版社,2012.