文献标识码: A
文章编号: 0258-7998(2015)06-0147-03
0 引言
人们提出了大量的评价方法来预测在背景噪声存在条件下的语音可懂度。在这些方法中,SII(Speech Intelligence Index)是现今最广泛使用的语音可懂度指数的方法。SII的评价是基于语音的可懂度取决于谱信息比例的思想,谱信息比例是可被听者听到的并通过频谱分割成20个频带(同样适用于可懂度),并估计每个频带的信号噪声比(SNR)加权平均值。每一个频带中的信噪比由频带重要性函数加权,该函数根据语料的不同而不同[1]。SII方法能够成功预测出线性滤波和加性噪声对语音可懂度的影响[2,3]。然而,还是有许多局限的。其中一个局限是,SII不能应用于语音嵌入在波动掩蔽的情况下。一些人已经试图拓展SII方法来评估在波动掩蔽条件下的语音可懂度。例如,Rhebergen提出将语音和掩蔽信号分割成短帧(9~20 ms),估计每一帧中的瞬时AI(Articulation Index)值以及平均所有帧计算后的AI值来产生单一的AI矩阵。拓展后的短期AI方法被认为在估计嵌入在人工掩蔽信号(比如周期干扰噪声)和类语音掩蔽信号中的句子时能够比传统的AI方法更好地预测语音可懂度,但是,后者在预测方面是不够准确的[4]。
MA J、HU Y和LOIZOU P C等学者提出用清晰语音作为权值来代替SII算法中的ANSI经验权值,可懂度有所提高[5]。所有这些改进都是针对于频域进行的,并没有考虑在时域对信号进行选择。然而不同的语音段对可懂度的贡献有所不同,如浊音段比清音段或无声段对可懂度的影响要大,这一点也和平时的经验相一致。比如在听一句话时,有时虽然不能完全听清晰所有的词,但只要能听清楚关键的词,就能通过联想猜出整个句子的含义。而如果没有听清楚关键词,即使其他部分能够听清楚,也无法猜出整个句子的含义。研究表明浊音段,尤其是音节的起始部分对可懂度的影响最大[6],根据这一思想,本研究提出在时域选取语音的起始段,然后再对选出的语音段进行SII分析。
1 实验方法及数据
可懂度评价算法使用的是HU Y和LOIZOU P C通过8种不同的噪声抑制算法处理的语音信号[7],下面简要介绍这些语料及增强处理算法。
1.1 语料和主观评价
IEEE的句子和辅音在/aCa/格式中被用于测试材料。辅音测试包含16个记录在/aCa/目录中的辅音,其中C=/p,t,k,b,d,g,m,n,dh,l,f,v,s,z,sh,dj/。女性讲话者产生的全部辅音和男性讲话者产生的所有句子,句子和辅音原始采样为25 kHz,下采样到8 kHz。从LOIZOU P C的书中可以得到这些记录。掩蔽被人工加到了语音材料中。掩蔽信号来自于AURORA数据库[8],并且包括了不同地方的真实录音:餐厅、汽车、街道和火车。掩蔽是添加在信噪比是0和5 dB的语音信号中的。
1.2 去噪算法
8种不同的去噪算法用来处理受到噪声干扰的句子,其中包括:广义子空间的算法、以感知为基础的子空间算法、最小均方误差对数算法、关于语音存在的不确定性的最小均方误差对数算法、基于降低延迟卷积谱减法算法、多频带谱减法、基于小波阈值多窗口谱的维纳滤波算法以及传统的维纳滤波算法。除了关于语音存在的不确定性的最小均方误差对数算法,其他所有的算法都是基于自身的实现。这些算法实现所使用的参数与公布的是相同的。当前测试研究的所有噪声算法的MATLAB实现也由LOIZOU P C完成了。
1.3 实验流程
总共有40个当地的美语讲话者被招募用于句子可懂度的测试,这40个听者被分成4个小组(每个噪声型为一组),每个小组有10名听者。每位受试者共参加了19项听力条件(=2个信噪比等级×8个算法+2个带噪参考+1个安静)。2个IEEE的句子列表(每个列表有10个句子)被用于每一个条件中。句子列表都是不重复的。另有10名听者加入辅音识别任务。被试者按照随机顺序每个辅音重复6次。处理后的语音文件(句子/辅音)以及清晰和带噪语音文件以单耳的形式呈现给听者。
HU Y和LOIZOU P C研究的可懂度产生了总共72种带噪环境,其中包括噪声干扰(未处理)环境[9]。这72种环境包括了8种不同噪声抑制算法在2种信噪比等级(0和5 dB)在4种类型的真实环境(餐厅、汽车、街道和火车)中引起的失真。在这72种条件下得到的可懂度得分在当前的研究中被用于评估大量之前的和新提出的客观评价的可预测功率。
2 语音起始段检测方法
语音信号随时间变化的频谱特性可以用语谱图直观地表示。语谱图的纵轴对应于频率,横轴对应于时间,而图像的黑白度对应于信号的能量。所以,声道的谐振频率在图上就表示成为黑带,浊音部分则以出现条纹图形为其特征,这是因为此时的时域波形有周期性,而在浊音的时间间隔内图形显得很致密[10]。图1为“A gold ring will please most any girl”语音的语谱图。
如果有必要,语音信号首先要重新采样。重新采样出来的信号要经过一个等响度滤波的处理,之后要使用一个二阶的butterworth滤波器[6]的信道进行滤波得出信道信号。
图2中上图是包络图,下图是起始段速率图。包络图中的包络是通过对信道信号的全波整流得到的。起始段速率是用来计算全频带信道的,而它是由包络速率的半波整流得到的,其中,包络速率是计算包络的第一次差值。图2中是测试语音的一部分,上图表现的是语音句子的一部分(A gold ring)包络,下图给出的是对应的起始段。竖线是人工标记出来的音节边界。
每一个起始段都有3个重要的位置,即起始段开始(onset start)、起始段峰(onset peak)、起始段结束(onset end),如图2(b)所示。起始段开始被定义为起始段速率首次大于0时的采样指数,它对应着原包络从谷值到开始的转折点,并被认为是候选音节边界位置。相反,起始段结束定义为起始段速率最终跌回到0的采样指数,它对应于原包络的峰值且是一个候选音节核位置。最后,起始段峰是起始段速率达到其最大值的采样指数。
3 基于语音起始段检测语音可懂度客观评价算法
时域分段信噪比(SNRseg)算法[11]在Hansen和Pellom的文章中提到,且计算公式如下:
4 实验结果
有两个数被应用于在预测语音可懂度中估计上述客观评价的表现[9]。第一个数是Pearson相关系数r,第二个是误差的标准差估计值,计算公式为其中σd是给出的条件的语音识别得分的标准差,σe是计算误差的标准差。较小的σe值表明客观评价在预测语音可懂度方面是较好的。
对正常听力的试听者在72种不同噪声环境下得到的平均可懂度得分进行相关分析,这些分析是客观评价得到的相关平均值。包括噪声抑制语音的这些条件最初受到了4种不同的掩蔽信号(餐厅、汽车、街道和火车)的干扰。计算的相关系数(预测误差)位于表1中。
从表1中能够看出,对于分段信噪比(SNRseg)[11],辅音和句子的Pearson系数分别为0.40和0.46;而对于使用了语音起始段检测方法的分段信噪比(SNRseg_onset),辅音和句子的Pearson系数分别为0.51和0.52。接下来对于4种的不同掩蔽来观察其相关系数,位于表2中。
表2给出的分别是分段信噪比(SNRseg)和语音起始段检测分段信噪比(SNRseg_onset)的4种不同掩蔽信号(餐厅、汽车、街道和火车)的相关系数。从表2中能够看出,对于辅音aCa,语音起始段分段信噪比算法(SNRseg_onset)相对于分段信噪比算法(SNRseg)的Pearson相关系数都有所提高。而对于句子Sen,大体都是所提高的,只有在火车噪声掩蔽下,相关系数是有所下降的。总的来说,由表1和表2中可以观察到,语音起始段检测分段信噪比算法(SNRseg_onset)的相关系数确实是提高了很多的。这就说明语音起始段检测方法用于SNR评价算法是有较好的表现的,也充分说明语音起始段(speech onset)对于SNR评价算法确实是有正面的影响的。
5 结论
当前的研究是在真实噪声条件下评价就预测语音可懂度而言传统的客观评价算法(SNRseg)和新的客观评价算法(SNRseg_onset)的表现。这些客观评价算法在总共72个噪声条件下进行测试,这些噪声条件包括在真实世界的噪声类型(汽车、餐厅、火车和街道噪声)干扰下的处理过的句子和无意义的音节。传统的SNR评价算法的表现是不够好的(辅音r=0.40,句子r=0.46),而当结合了本文提出的语音起始段检测算法的SNR,即SNRseg_onset评价算法,其在预测语音可懂度方面有较好的表现(辅音r=0.51,句子r=0.52)。同时也说明语音起始段(speech onset)对于SNR评价算法确实是有好的影响的,表明结合语音起始段(speech onset)检测算法能够提高客观评价算法的性能。
参考文献
[1] HALL S M,ISAACSON J J,BURHANS C G,et al.New editions of ANSI standards for warnings[C].9th Annual IEEE Product Safety Engineering Society′s Symposium on Product Compliance Engineering,ISPCE 2012,Portland,2012:1-4.
[2] LOIZOU P C,Ma Jianfen.Extending the articulation index to account for non-linear distortions introduced by noisesuppression algorithms[J].Journal of the Acoustical Society of America,2011,130(2):986-995.
[3] KRYTER K D.(1962b).Validation of the articulation index[J].Journal of the Acoustical Society of America,1962(34):1698-1706.
[4] RHEBERGEN K S,VERSFELD N J.A speech intelligibility index-based approach to predict the speech reception threshold for sentences influctuating noise for normalhearing listeners[J].Journal of the Acoustical Society of America,2005(117):2181-2192.
[5] MA J,HU Y,LOIZOU P C.Objective measures for pre dicting speech intelligibility in noisy conditions based on new band-importance functions[J].Journal of the Acoustical Society of America,2009,125(5):3387-3405.
[6] VILLING R,TIMONEY J,WARD T,et al.Automatic blind syllable segmentation for continuous speech[C].Irish Signals and Systems Conference,Belfast,2004.
[7] HU Y,LOIZOU P C.A comparative intelligibility study of single-microphone noise reduction algorithms[J].Journal of the Acoustical Society of America,2007,122(3):1777-1786.
[8] DO C T,PASTOR D,GOALIC A.A novel framework for noise robust ASR using cochlear implant-like spectrally reduced speech[J].Speech Communication,2012,54(1):119-133.
[9] HU Y,LOIZOU P C.Evaluation of objective quality measures for speech enhancement[J].IEEE Trans.Audio,Speech,Lang.Process,2008(16):229-238.
[10] 张雪英.数字语音处理及MATLAB仿真[M].北京:电子工业出版社,2010:19.
[11] KOBAYASHI Y,KONDO K.Speech intelligibility estimation using support vector regression and critical band segmental SNR in noisy condition[J].IEEJ Transactions on Electronics,Information and Systems,2013,133(8):1556-1564.