移动运营商非常明白语音质量对于留住用户来说很重要。影响语音质量的一个主要因素是环境噪声,因此任何抑制噪声的方法对于手机制造商来说都是一个实现差异化的机会。不过,直到最近噪声抑制技术还只专注于降低缓慢变化的稳态噪声源。然而,很多非稳态噪声源为快速变化的,因此不能被抑制。因而,用户不能在繁忙的大街上、拥挤的酒店或者甚至是在家里可靠地使用他们的手机。
抑制非稳态噪声对用户和运营商都有很大的好处。用户可以在任何时候和任何地点自由清楚地通话,可以在嘈杂的环境中低声说话以保护其隐私,不会被要求离开重要的电话会议。运营商会看到丢失用户的数量降低,增加通话时间,而且更有效地使用网络带宽,并大大地节省投资和运营成本。
图1. 在采用瞬时非稳态噪声抑制技术前后的时域波形
1.理解稳态和非稳态噪声之间的差异
由于其相对稳定的特性—例如嘈杂的鼓风机环境中,稳态噪声可以很容易地被识别,能用传统的新好处理方法轻易地去除。相反,非稳态噪声具有快速或随即的变化,例如一个人的说话声、背景音乐或按键音。当非稳态噪声被作为噪声识别的时候,这些噪声实际上已经通过,因此需要更成熟的噪声抑制方法。
2.使用两个麦克风来改善对听觉现场的理解
下一代噪声抑制技术,例如听觉场分析(ASA)、波束成形(BF)和盲源隔离(BSS)使用几个麦克风来更准确地识别、定位以及噪声源分组,准确性比单个麦克风更高。当今的手机制造商已经意识到这种趋势,在手机的架构中引入了第二个麦克风。
3. 利用分组原理来分隔声音点
分组方法简化了噪声抑制,同时还能确定非稳态噪声源。例如听觉场分析(ASA)使用人的听觉通道作为一个模型,按照人实际对某个声音的听觉来处理噪声。通过多声学能量进行分组来重新产生原来的声音,ASA实现了来自多个源的准确分组,同时避免任何听觉上应该分开的声音被混合在一起。分组原理可以被大致描述为连续的(在一段时间内发生的)和同时的(在一段频率内)。
4.使用多个线索来分组,否则难以正确地对声音进行分组
每一个分组线索都有局限性。使用多个线索能对难以分析的声音进行正确的分组。某些重要的线索包括:
•声音的特性:一个音源产生的谐波可以形成清楚的频率图,这个频率图可以用来对两个声音进行区分。声音特性是区分男人和女人的一个主要线索。
• 空间信息:由距离和方向判断出来的距离可以用来对声音分组,因而可以对感兴趣的声音进行分辨。
• 发出时间:如果两个声音能量和他们对应的谐波在时间上一致,他们很可能来自同一个音源。
5.减少收敛时间以消除更多的瞬间噪声
传统的噪声抑制方法必须在他们消除噪声之前收敛,因而他们在抑制非稳态噪声源上效率较低。通过利用快速响应的线索来对声音进行描述,像打响指这样的瞬间时间都可以被识别并消除。
6.采用对数与线性频率比例(FCT vs. FFT)
熟悉的快速傅立叶变换(FFT)对频率分量按线性比例进行分解,这样限制了在低频处的频谱分辨率,而且使用很定的帧大小和独立于频率的带宽。相反的,快速耳蜗变换(FCT)基于人耳蜗的原理,按对数频率比例变化。这样一来,它不会限制频谱分辨率。通过不断的处理,而不是按帧进行处理,FCT还降低了处理延迟,因此它适合于识别非稳态的噪声源。此外,FCT工作的带宽是与频率相关的,在人耳听觉范围内能更准确地匹配时域-频域折衷。
7.使用全向麦克风来降低成本
像波束成形这类方法需要一种专门的心型曲线式(cardioid,单向)麦克风。这种麦克风的成本比全向麦克风成本更高,具有更低的噪声容限,必须进行单独的校准和匹配,误差要低于1dB,带来对间隔的限制,由于对风声和呼吸声很敏感,因此会增加+12dB的噪声。波束成形技术也有其局限性,对所关注的波束的任何错误选择都会被错误地传递。对一个系统所需要的麦克风的数量的管理也很重要。例如,盲源分离(Blind Source Separation)使用一种简单的线性非混合方法,在麦克风的数量与音源的数量一样多的条件下,这种方法效果非常理想。
8.将回声作为独立的音源来处理
一直以来,人们利用回波消除方法来消除回声。这种方法的运算量非常大,因为必须计算回波反射,在噪声源变化很快的时候,其性能很差。分组线索使我们能将会波作为另外一种噪声源。由于回波既不需要进行计算,而且不会改变路径,因此可以进行瞬间抑制,能实现高达46dB的回波噪声抑制性能。
9.采用新的测试标准
移动通信行业不断地推进测试标准来表现出通过在噪声抑制技术上的创新实现更高的语音质量等级。为了保证他们的产品获得最佳的质量,该行业最近修正了ITU P.835规范来提供一致的测试方法,对采用了噪声抑制技术的语音质量进行测试并产生测试报告。