基于离散小波变换的语音激活检测
2008-11-19
作者:陈明义, 李 微, 黎 华
摘 要: 为提高在噪声环境" title="噪声环境">噪声环境下语音检测的性能,提出了一种基于小波" title="小波">小波变换" title="离散小波变换" title="离散小波变换">离散小波变换">离散小波变换的语音激活检测" title="语音激活检测">语音激活检测(VAD)的方法。算法将语音信号" title="语音信号">语音信号进行3层离散小波变换,通过Teager能量算子(TEO),提取能量比值和能量差值两个参数,最后进行门限判决。实验结果表明,本算法在噪声环境中能够有效地正确判别语音段和噪声段,并且优于G.729B和AMR所提出的VAD的算法。
关键词: 离散小波变换; 语音激活检测; Teager能量算子
语音激活检测(VAD)技术即根据人们日常谈话的话音和静默特性,对检测到的静音加以抑制。目前该技术在语音识别、语音编码以及语音增强等领域获得了广泛的应用。由于语音处理系统常常工作在噪声环境中,所以在低信噪比环境中,VAD检测的性能对语音信号的处理至关重要[1][2]。虽然目前VAD技术已经取得较大的发展,仍需进一步研究以提高其对噪声的鲁棒性。本文给出了基于离散小波变换的语音激活检测方法,这种方法提出了能量比值和能量差值两个参数。通过对带噪语音的实验比较,证实了该方法的有效性。
1 离散小波变换的语音激活检测的算法
1.1 离散小波变换(DWT)
离散小波变换相当于离散信号经过一组滤波器而被分成一系列子带信号。滤波器组由低通滤波器和高通滤波器组成,低通滤波器的输出是近似信号,高通滤波器的输出是细节信号[3][4]。小波的多分辨分析只是对低频部分进行进一步分解,使低频的分辨率变得越来越高,而高频部分不予考虑。cm,n和dm,n分别表示DWT输出的近似部分和细节部分。l(n)、h(n)分别表示低通滤波器和高通滤波器。m表示分解的层数,n表示分解系数的索引值。
为了进一步研究离散小波变换的逼近信号和细节信号对于语音的影响,对原始语音进行3层的离散小波变换,选取的小波函数为Daubechies(db5)。分别对清音、浊音和静音进行细节部分和逼近部分的比较,如图1和图2。图1表现了浊音的主要能量集中在近似部分,而很少在细节部分,从图2中看出,清音正好与浊音相反,而静音能量分布则相对比较平衡。
1.2 TEO
TEO是一种极为有效的、非线性的演算法,它能够有效提取语音信号的能量。由于声音部分是属于稳定或半稳定的信号,而无声部分是属于不稳定信号,TEO的功用是强化稳定或半稳定信号,并衰减不稳定信号,可以更加突出细节部分和近似分布的特性[5]。公式(3)为TEO计算公式,i表示语音信号的帧数,tm,i(n)表示离散小波变换的第m层的第n个小波系数,Tm,i(n)是经过TEO处理后的结果。
1.3 提取特征参数
根据上面的分析提取出能量比值Ri和能量差值Di两个特征参数。具体公式如(4)、(5),其中Nd、Na分别表示第一次分解的细节部分的长度和其近似部分的长度。
(1) 能量比值
每一帧的第一次分解的细节部分与其近似部分的比值。
(2) 能量差值
每一帧的近似部分与第一次分解的细节部分的差值。
1.4 门限判定
提取特征参数之后进行门限的设定,对门限值的计算公式如式(6)、(7)、(8)、(9),thd、thr分别是能量差值和能量比值的门限。R1、D1分别表示能量比值和能量差值的最大值,R0、D0分别表示能量比值和能量差值的估计噪声平均值,Ra、Da分别表示能量比值和能量差值的平均值。
2 实验分析
在进行离散小波变换时,本文选取小波函数为Daubechies,运用了Mallat算法进行分解运算,可以减少算法的运算量。在噪声环境下,用本文的方法进行了实验分析。实验所用的语音信号是在实验室环境下录制的,采样频率为8kHz,将噪声加入语音信号,形成不同的信噪比。如图3和图4 即为原始语音和加噪语音信号的检测结果。
图5、图6是由本文提出的VAD算法与G.729、AMR的VAD算法比较的结果。从语音信号中选取了无噪声、20dB、15dB、10dB、5dB 、0dB各40个语音作比较。实验结果表明,本文提出的方法在噪声环境中要优于AMR、G.729B语音编码器中的VAD方法。
根据浊音、清音和静音离散小波变换后的系数进行分析,提出了基于离散小波变换的语音激活检测方法。该方法对清音的特性作了提升,使得判决误差更进一步减小了。实验结果表明,该方法在低信噪比的情况下,基于离散小波变换的语音激活检测方法具有较高准确率和稳定性。
参考文献
[1] KUBIN G, WERUAGA L, SIGMUND M. Time-frequency analysis for voice activity detection. Processing of the 24th IASTED International Multi-Conference,Inns-bruck,Austria, 2006.
[2] 郭莉,殷南,王炳锡.语音业务中鲁棒性VAD算法分析. 语音技术, 2005,(9):41-45.
[3] 李建平,唐远炎.小波分析方法的应用.重庆:重庆大学出版社,2000.
[4] 黄炳刚,周志杰,郑翔. 基于小波变换的语音激活检测. 解放军理工大学学报(自然科学版),2006,7(3):210-213.
[5] HUANG S, CHEN H T, CHANG Wuyukon, et al. Robust voice activity detection using perceptual wavelet-packet transform and teager energy operator. Advances on Pattern Recognition for Speech and Audio Processing, 2007,(28):1327-1332.