摘 要: 提出了一种可进行盲检测的数字音频" title="音频">音频水印算法。该算法利用人类听觉系统对音频相位变化的不敏感性,通过时变的全通滤波器,对原始音频信号进行相位调制。为了实现盲检测,将水印信号通过频移键控(PSK)赋值到立体声信号的左右声道上,然后采用短时离散傅立叶变换的方法对嵌入水印的音频信号进行检测。实验结果证明该算法具有良好的不可感知性和鲁棒性。
关键词: 数字音频水印 相位调制 频移键控 短时离散傅立叶变换
数字水印" title="数字水印">数字水印是一项为保护多媒体知识产权而发展起来的技术,其作用就是将数字、文字、图像等版权信息嵌入到多媒体数据(载体信号)中。数字音频水印就是将版权信息嵌入到音频载体信号中,以实现版权保护、加密通信及鉴别数据真伪等功能。
嵌入载体信号的水印必须有较好的鲁棒性和不可感知性。为此,需要利用人类听觉系统(HAS)的一些特性进行水印的嵌入[1]。目前的研究表明,人类听觉系统对音频信号的相位是不敏感的[2]。具体表现为:在高频段,人耳对音频信号的相对相位变化不敏感;在低频段,人耳对声音的绝对相位不敏感。因此,许多研究者针对这些性质提出了一些水印算法。例如,相位编码法[3],该算法是在保证相邻相位差不变的情况下,改变信号的绝对相位,这种做法的结果是相邻频率分量的相对相位关系与原始音频信号的相对相位关系有较大的差别;另一种方法是,将音频信号通过无限脉冲响应(IIR)的全通滤波器,从而将水印信息嵌入到原始音频信号的相位上[4],无限脉冲响应的全通滤波器通常具有较复杂的相位特性,所以使用这种方法嵌入的水印一般具有较差的不可感知性。
本文通过总结以上方法,提出一种新的水印算法。将原始音频信号通过全通滤波器,循环地改变全通滤波器的群时延,以达到嵌入水印信号的目的。信号通过全通滤波器后,改变的只是它的相频特性,因此,该方法又称为动态相位调制法。
1 水印的嵌入与检测
1.1 相位调制
通过一个时变的全通滤波器对原始音频信号进行相位调制。全通滤波器利用一个IIR滤波器来实现。根据数字信号处理的知识,这个IIR滤波器可以通过一组有限脉冲响应(FIR)的滤波器来近似地实现,这样做的好处是利用这些线性相位滤波器,使时变的全通滤波器的群时延在整个频率范围内变为一致,然后通过一个正弦函数控制群时延,使该滤波器的相位特性循环变化。该全通滤波器的相位特性可以用下式表示:
式中,τpm表示最大群时延,ωpm表示调制率(调制角频率),Φpm表示初相位。τpm和ωpm的取值能影响水印的可见性,因此它们是该相位调制滤波器(PMF)的重要参数。通过对ωpm进行频移键控,可以实现水印的嵌入。
考虑到需要对水印信号进行盲检测,同时为了提高检测出的水印的信噪比,本文对其中一个声道的调制信号加上一个相偏π,于是得到:
式中,h(i,n) {i∈0,……M-1}随C(n)变化。
1.2 相位解调
本文利用短时离散傅立叶变换对加入了水印的音频信号进行解调。
在时刻t,调制后的音频信号的相频特性可以表示为:
由此可以看出,检测到的水印信号具有3dB的信噪比增益。
1.3 基于FSK的水印编码
(1)嵌入过程:频移监控(FSK)的通常定义为:
Ci(t)=Acos(ωit+Φ),i=1,……M
式中,频率ωi从M个离散值中选择,初始相位Φ取任意值。
通过扩展带宽可以得到MFSK编码,扩频的大小与所取的M值有关。水印嵌入时,将相应的数字信息赋值给相应的ωi,从而产生一个相位调制信号Ci(t),这就是基于FSK调制的相位调制信号。上面提到的相位调制滤波器(PMF),其相位特性就是随这个相位调制信号而变化。水印嵌入过程就是将原始音频信号同PMF的脉冲响应做卷积来实现的。
(2)检测过程:首先,利用DFT计算出解调信号(t)的能量谱;然后,计算出这个能量谱峰值处的频率,通过解码这个峰值频率得到一个水印信息;最后,将解码出的水印信息组合,得到完整的水印信息。
2 仿真实验
本文采用采样率为44.1kHz的16bit编码的双声道音频信号,信号长度为180s。水印信号采用一个64×64的二值图像。嵌入时的具体参数如表1所示。
在水印信号嵌入前,可以采用扩频技术[5],通过原始数据的频域扩展,实现水印信息的加入。从而提高水印的检测精度,并能随机产生一个密钥,但同时也增加了嵌入水印的数据量。
本文采用的相位调制滤波器由256个有限脉冲响应(FIR)滤波器组成,如图1所示。
水印检测时,每65 536点作为一个数据段,对其进行采样间隔为16的N点短时离散傅立叶变换,其中取N=256。结构如图2所示。
本文采用识别率(SHR)对检测到的水印进行性能上的估测。识别率定义为正确识别的水印与嵌入水印之比。公式如下:
采用不同音频信号提取后的识别率如表2所示。
为了验证算法的鲁棒性,需对该嵌入水印的音频信号进行攻击处理。这些攻击包括:低通滤波、时域压缩、添加噪声等。对受攻击后检测出的水印性能的评测,也是利用识别率来衡量的。实验结果表明(如表3),该算法对时域压缩有明显的抵抗力,对其他攻击也有较好的鲁棒性。
本文讨论了一种基于相位调制的数字音频水印算法,同时给出了该水印的盲检测算法。由该算法产生的水印具有较好的不可见性;又因为嵌入水印时,运用多种保密技术,该算法对多种攻击处理具有良好的鲁棒性。与以往的水印算法相比,水印的不可见性和鲁棒性都有不同程度的提高。由本文的检测算法可得:当该立体声信号被滤掉一个声道时,水印将不再起作用。
参考文献
1 A N Lemma,J Aprea,W Oomen et al.A temporal domain audio watermarking technique.IEEE Trans.Signal Processing,2003;51(4):1088~1097
2 Brain C J Moore.An introduction to the psychology of hear-ing,4th edition.New York:Academic,Feb,1997
3 W Bender,D Gruhl,N Morimoto et al.Techniques for data hiding.IBM SYSTEMS JOURNAL.1996;35(3&4)
4 Ciloglu T,Utku Karaaslan S.An improved all-pass water-marking scheme for speech and audio.In:IEEE International Conference on Volume 2,Aug 2000
5 Darko Kirovski,Henrique S.Malvar.Spread-Spectrum Water-marking of Audio Signals.IEEE Trans.Signal Processing,2003;51(4):1020~1033