《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 基于听觉模型的说话人语音特征提取
基于听觉模型的说话人语音特征提取
来源:微型机与应用2012年第1期
何朝霞,潘 平
(贵州大学 计算机科学与信息学院,贵州 贵阳 550025)
摘要: 基于听觉模型的特性,仿照MFCC参数提取过程,提出了一种基于Gammatone滤波器组的说话人语音特征提取方法。该方法用Gammatone滤波器组代替三角滤波器组求得倒谱系数,并且可以调整Gammatone滤波器组的通道数和带宽。将该方法所求得的特征在高斯混合模型识别系统中进行仿真实验,实验结果表明,该特征在一定情况下优于MFCC特征在系统的识别率,同时在Gammatone滤波器组通道数较高或滤波器带宽较小的情况下,系统具有较高的识别率。
Abstract:
Key words :

摘  要: 基于听觉模型的特性,仿照MFCC参数提取过程,提出了一种基于Gammatone滤波器组的说话人语音特征提取方法。该方法用Gammatone滤波器组代替三角滤波器组求得倒谱系数,并且可以调整Gammatone滤波器组的通道数和带宽。将该方法所求得的特征在高斯混合模型识别系统中进行仿真实验,实验结果表明,该特征在一定情况下优于MFCC特征在系统的识别率,同时在Gammatone滤波器组通道数较高或滤波器带宽较小的情况下,系统具有较高的识别率。
关键词: 听觉模型;Gammatone滤波器组;MFCC;特征;识别率

 声音的感受细胞在内耳的耳蜗部分,而基底膜是耳蜗接收声音最重要的组织。声波在外耳腔引起空气振动,从而引起行波沿基底膜的传播[1]。基底膜内有许多平行走向的胶原样纤维,称为听弦。听弦长短不同,靠近蜗底较窄,靠近蜗顶较宽。基底膜约有24 000条听弦,能够对不同频率的声音产生共鸣,分别反映不同频率的声音[2]。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上,研究发现,不同的声音频率沿着基底膜的分布是对数型的[3]。
 早在1992年,PATTERSON R就提出了耳蜗模型,该模型是基于一系列带通滤波器——Gammatone滤波器组[4]实现的,该滤波器组能够很好地模拟基底膜的分频特性。本文提出了一种基于Gammatone滤波器组的特征提取方法,该方法能够很好地提取说话人语音信号的特征,并且具有很高的识别率。


 



 从图6可以看出,64通道的GFCC静态特征参数比MFCC静态特征具有更好的识别率。
 同时,将不同order值、不同滤波器组通道数所得的GFCC参数在识别系统中进行了识别率比较,如图7所示。其中,order值分别为0.1、0.5、1,滤波器组通道数分别为48、64、128。从图7可以看出,滤波器组通道数越高,识别率越高;order值越小,识别率越高。

 本文介绍了基于人耳听觉特性的Gammatone滤波器组的特征提取方法,并通过实验验证了该特征在滤波器通道数较多或ERB(f)较小时具有较高的识别率。但是同时也得出只有在滤波器组通道数较高时才有较高的识别率,增加了数据的复杂度。在以后的研究中需要考虑通过降低滤波器组的通道数提高识别率的方法。
参考文献
[1] JOHANNESMA P I M. The pre-response stimulus ensemble of neurons in the cochlear nucleus[C]. Proceedings of the Symposium on Hearing Theory, 1972:58-69.
[2] COOKE M P. Modeling auditory proeessing and organization[M]. Cambridge,U.K: Cambridge University Press,1993.
[3] 韩纪庆,张磊,郑浩然.语音信号处理[M].北京:清华大学出版社,2008.
[4] SLANEY M. An efficient implementation of the patterson-holdswort auditory filter bank. Apple ComPuter Teehnieal RePort#35 Pereeption GrouP-Advaneed Technology GrouP[R]. ComPuter, Inc:Apple, 1993.
[5] Shao Yang, Wang Deliang. Robust speaker identification using auditory features and computational auditory scene analysis[C]. IEEE International Conference on Acoustics, Speech, and Signal Processing,2008,5:1589.
[6] SRINIVASAN S, Wang Deliang. Transforming Binary uncertainties for robust speech recognition[C]. IEEE Transactions on Audio, Speech and Language Processing, 2007,15(7):2130-2140.
[7] Wang  Deliang, BROWN G J. Computational auditory scene analysis: principles, algorithms, and applications[M]. Hoboken, NJ: Wiley-IEEE Press, 2006.
[8] 王男,钱志鸿,王雪,等.基于伽马通滤波器组的听觉特征提取算法研究[J].电子学报,2010,38(3).

此内容为AET网站原创,未经授权禁止转载。