一些音频编码解码器芯片主要由围绕一些处理硬件的一个模数转换器(ADC)和一个数模转换器(DAC)组成,但它们只是众所周知的海底冰山露出来的一角。最近一段时间,大部分工程师认为音频编解码器就是在DSP平台上运行的压缩和解压缩算法。在整个音频频率范围里,“语音”编解码器适合数字电话应用,而“音频”编解码器则适合娱乐音频应用。
在这个意义上,音频编解码器是从Dolby公司的噪音抑制技术演变成Dolby和其它一些公司更综合性的压缩方法。它们的出现还与国际标准组织(ISO)的运动图像专家小组(MPEG)有关,该工作小组负责为数字音频和视频的编码表示制定相应的标准。
尽管语音编解码器技术的发展一定程度上处于静止状态,但音频编解码器技术一直在向前演进(参见图1)。例如,朝更多的环绕声通道发展就是一个趋势。最大的一个技术趋势是增加了用于模拟立体声系统中的多通道音频的技术,以再造特别实况音乐会会场的“现场感”。于是产生了完成所有这些处理的挑战,因为你不再能用依靠AV接收器或DVD播放器内的大功率电源供电的DSP引擎来实现,而必须用靠手机或PDA中的电池供电的DSP引擎来实现。所有上述因素就为两个不同但却融合的应用领域(个人音频和家庭影院)带来了一个有趣的故事。
个人音频
德州仪器公司(TI)便携音频和信息娱乐业务部首席技术官RandyCole指出,在个人音频领域最普遍的音频编码解码器是MP3(参见图2)。MP3一度局限于PC和便携多媒体播放器,但它目前在手机行业中也比比皆是,其原因就是手机制造商不断地追逐新功能,以诱使最终用户每隔六个月就进行一次产品换代。
MP3是ISO公布的一项标准。它是由MPEG制定的MPEG-1编码解码标准系列中的第三个。MPEG-1有三层,每一层都包括前面的层。因而,第3层实现了第1和2层。出于这个原因,MPEG-1及第3层就是众所周知的MP3,它提供了一个适于便携应用的带宽和数据速率,虽然较低却足够了。
在过去10年中,MP3一直是下载音乐的主导性音频编码解码器。但是苹果公司的iPod在一项名为先进音频编码器(AAC)的新MPEG开发项目中打破了这个惯例。MPEG在1990年代中期开始从事AAC标准的制定,将其作为下一代MPEG-2研究的一部分,并实现了AT&T、Dolby、Fraunhof和索尼公司开发的最好最新设计理念。起初,它打算同MP3后向兼容,但这个目标不可能达到。
因此,由于整个行业深深卷入MP3,没有一家公司愿意调拨资源为AAC这个新方案生产大量的音频节目,所以它衰败了。也就是说,直到苹果公司为iPod选择AAC的MPEG-4版本之前,该技术一直处于衰败的状态。(在MPEG-2之后成立的下一个MPEG工作小组是MPEG-4,越过了MPEG-3。苹果公司所用的MPEG-4AAC是MPEG-2AAC的一个强化版本,其数据速率稍低而质量有改进。)
其它专有的编码器存在于MP3和AAC范畴之外。它们在PC和个人多媒体设备领域有一定的穿透性,但它们在手机行业就不太重要,因为手机生产商宁愿标准的编码器及其固定的版税。一种大家熟悉的专有编码器是WindowsMediaAudio(WMA)。它主要用于PC,并在其中与MP3和AAC进行竞争。然而,从数据速率看,它很灵活(从低到高有适当的质量差异)。目前,还有WMA的多频道版本WMA-Pro,而且微软公司在2005年6月还发布了一种损耗更低的WMA。
其它重要的专有编码器就是DolbyDigital,也就是著名的AC3。这种编码器用于DVD和(美国的)数字电视。直到最近,它的运行速率对互联网和手机来说还是太高。不过,需要补救的是一个把数据速率降得更低的新版本。
根据TI公司高性能音频业务部行销经理MohsinImtiaz的观点,在家庭影院领域主要的编码解码器是Dolby和DTS。Dolby公司发布的DolbyDigitalPlus瞄准了高清晰度DVD和广播市场。但是在MP3、AAC、WMA等便携标准之间有一定的交叉。针对下一代DVD,微软公司正在力推WMA。
解析一个编解码器
让我们分解一个编解码器。为了把整个事情说清楚,我们看一篇在2004年10月音频工程学会年会上提交的论文,它描述的是DolbyDigitalPlus技术。
该论文说新的DolbyDigitalPlus编码解码器是基于DolbyDigital的较早版本,也叫AC-3。DolbyDigitalPlus或加强型的AC-3(E-AC-3)保留了元数据载运器、过滤器库和帧结构。目前的数据速率范围从32Kb/s到6.144Mb/s。在采样速率32KHz和六模块转换帧的条件下,数据速率控制的分辨率可达到每秒1/3位。(数据速率的分辨率正比于采样速率,反比于帧的尺寸。)
E-AC-3保留了AC-3的六个256系数转换帧结构,但它允许包含一个、两个和三个256系数转换模块的较短帧存在。其结果就是,音频传输可以在高于6?0Kb/s的速率下进行,这适合于某些限制了每帧数据量的DVD。
E-AC-3可以支持目前的5.1、6.1或7.1频道,进而一直到电影院的13.1频道。主音频节目位流加上多达八个的附加子流经过多路选通进入一个单一的E-AC-3位流。通过频道替换消除了矩阵减法引起的编码失误。与AC-3相比,E-AC-3能多传输七个独立的位流。
编码效率的提高还可以通过一个新的滤波器库、更好的量化、强化的频道耦合、谱扩展和一种名为“瞬态预噪音处理”的技术来实现。
当具有稳定特征的音频出现时,该滤波器库在现有的AC-3滤波器库之后加入一个二级DCT。这把六个256系数转换模块转换成一个单一的1536系数混合转换模块,且提高了频率分辨率。这个提高的频率分辨率与六维向量分量(VQ)及增益自适应分量(GAQ)结合在一起可以改进“难于编码”信号的编码效率,比如说黑管和大键琴。
VQ用于需要较低准确度的频带区。当需要更高准确度分量时,GAQ更有效率。此外,通过频道与相位保存的耦合可以使编码效率得到一个提升。在AC-3用一个高频单合成频道作为每个频道上高频部分的地方,加入相位信息和编码器控制的谱幅度处理能够让这个高频单合成频道处理较低的频率,从而减小了有效的编码带宽并增大了编码效率。
谱扩展是用频域上转换的较低频谱段代替了较高层的频率转换系数。该转换频谱段的谱特征通过转换系数的谱调制与原始的形式匹配。
为了提高低数据速率时的音频质量,E-AC-3采用了瞬态预噪音处理技术。这个后解码过程把预噪音误差降到最低,其做法是采用可缩短预噪音持续时间的时标合成技术,因而降低了瞬态扰动的可听度。由编码器计算并在E-AC-3位流中发送的元数据提供了后解码过程、时标合成处理所需的参数,时标合成处理使用了听觉情景分析技术。
后处理
用于音频编码解码器中后处理的专有算法与DolbyDigitalPlus这类压缩标准一样重要,它们对任何受许可人也相同。在这个领域中,这些算法对多频道标准携带的信息进行操作,从而把家庭影院转化成任何形式的收听场所:从一个巨大的教堂到一个爵士音乐俱乐部的户外摇滚音乐会。
按照ADI公司SigmaDSP产品经理ThomasIrrgang的说法,后处理全都是围绕着OEM商追求一个“签名声音”的愿望开展的。大概最先做成功这点的是THX公司。其它开展后处理研究的公司包括SRS、TruSurroundXT和TruBass。
在电视领域有能够复原MP-3编码损失的后处理器BBE,包括BBE3D和BBEMP。还有一种专门用于电视的算法BBEViva,在电视中立体声话筒一般放置的非常近以便获得良好的立体声收听效果。
低音增强在便携系统和电视机中正变得重要起来,这些设备不会给大的话筒驱动器留有大的空间。目前最突出的是WAVES公司的MaxxBass算法,它大概也是最流行的低音增强算法,因为它增强了正被处理材料中低音的主观感受水平,同时又不加入任何低频能量。
Dolby公司在后处理领域以其VirtualSpeaker(虚拟话筒)和DolbyHeadphone(Dolby耳麦)算法而闻名于世。Dolby公司表示其技术复制了多个所以声音签名,包括反射,同时提供了串扰抵消,以便保持每个耳朵的环绕音质不被其它话筒的环绕音质所抵消。虚拟话筒和Dolby耳麦算法最初是由澳大利亚的LakeDSP公司开发的。Lake现在是Dolby的一家分公司。
当然,天下没有免费的午餐。诸如虚拟话筒这样的算法只能在一个相对小的室内空间(俗称“甜场”)中模仿缺失话筒的存在。在这个“甜场”之外,环绕信息崩溃了。该声音不算坏,但听起来它来自一个常规的双耳话筒设置,情况就是这样。
为了重新生成一个物理空间,Panasonic公司的网站上说,其HallMode(大厅模式)“再生了回响效果,使听众有一种空旷之音绕着自己传播的感觉,”而且它在“享受音乐厅内的交响乐表演时的效果尤其好。”一个雅马哈A/V接收器的评论家认为雅马哈的音乐厅“的确加入了额外的一维,使人感到声场的高度,‘音乐厅模式’甚至让你忍不住要尝试一下。对于令人喜爱的Mahler第四交响乐的立体声录音,‘音乐厅模式’给人一种亲临现场的感觉。”
房间修正
在后处理领域,超越虚拟化的下一步就是房间修正。这个功能开始出现于2002年或2003年的高端多频道系统中,而且目前已经发展到处于价格/性能谱系中端的系统。它对一套公寓楼内家庭影院系统的用户满意度至关重要,因为在家庭影院系统中不可能对称设置左、右话筒,或者说房间内一堵墙的声学性能不同于它对面墙的声学性能。多频道系统从房间修正技术中获益最多。它也许对两频道设置的影响较小,但立体声系统一般说来对误调整和误校准不那么敏感。
房间修正涉及到把该系统调整为TEST(测试)模式,在最喜欢的倾听位置处放一个麦克风,并播放出一系列测试声音以便弄清楚房间声学性能方面的信息和话筒本身的局限性,随后根据专有算法调整增益和均衡度。对于房间整定技术,一个令人感兴趣的交叉领域是汽车应用。多年来,一直在对昂贵汽车内OEM的音响系统进行声学调整以便获得最佳性能,但这是一个相当费力而且相当主观的人工过程。
汽车制造商已经开始采用自动的听觉空间调整。实践证明,除了丰富的听觉经验外,这类调整一个最重要的方面就是声学上的回音抵消。这意味着消除从免手拿话筒到安装在太阳帽或头顶处麦克风的反馈。
手机和个人多媒体设备的融合
MP3和AAC数据速率对个人多媒体播放器及PC是恰当的。但对于手机来说,数据速率必须要低一些。而且显而易见的是,与下载音乐文件以便稍后播放相比,通过蜂窝网链接的流音频有着很不同的需求。
由第3代合作规划委员会(3GPP)制订的3G手机标准采用AAC作为音频编码解码器标准,可满足了这两类应用的要求。该标准最新的修改版(版本6)允许使用两种音频编码解码器中的任何一种。一种就是AAC的强化版,叫做AAC-Plus或高效率AAC(HE-AAC)。
前不久,强化AAC-Plus或高效率AAC的第二套改进版(版本2)也添加进来。另一种选择是“AMRWidebandPlus”,它是一种强化的语音编码器。对GSM手机来说,AMR宽带是一种非常流行的语音编码器。其Plus改进版将其应用扩展到可处理音乐。
苏格兰的Wolfson微电子公司从事硬件音频编码解码器的制造,该公司新产品开发部的副总裁PeterFrith指出,给手机加入回放MP3的功能,或者用于下载音乐,或者作为高质量的铃声,意味着用户已经希望在手机中看到一个相对高保真的回放系统。因此,手机制造商目前期盼出现功耗甚至更低的便携式DAC,且能够达到100dB的信噪比。
目前,带多媒体功能的手机只能播放MP3。下一步要做的也许是个人多媒体播放器,它们能把手机的功能和蓝牙及Wi-Fi技术结合在一起。在此期间,PDA电话已经逐步进入领域,它提供了一些播放视频或音频文件的功能。
那是你口袋里的合唱队吗?
Frith还表示,在过去,设计人员提供的手机只有非常简单的铃声或者MIDI铃声功能。有了MIDI,硬件解决方案总的来看已经发展成一个独立的MIDI解码器芯片。
雅马哈是个典型的例子,芯片对MIDI文件进行解码,并将解码结果转换成PCM音频文件,随后通过一个DAC把它们播放出来。这个DAC也许可以集成进该解码芯片之中,当然也可以是分立的。做到这点的一个替代方法是把软件MIDI解码器植入电话处理器之中。
用户对播放高质量铃声的兴趣已经导致日本市场上的某些电话为其铃声选用了MP3文件。电话对它们的处理如同一个音乐设备对MP3文件的处理一样。它们是通过高保真音频系统来处理。
在目前的大部分电话之中,这个高保真系统是一个独立的芯片,它含有一个立体声DAC、一个立体声ADC、若干耳机和扬声器驱动器、麦克风预放大器等等。但类似Wolfson这样的公司目前寻求把所有这一切都集成在一起,以便该处理器可以实现语音播放和铃声、语音信号、蓝牙连接以及更多的功能(参见图3)。