包含在语音信号中情感特征的分析
2009-02-20
作者:钱向民
摘 要: 分析了含有欢快、愤怒、惊奇、悲伤等4种情感语音信号的时间构造、振幅构造、基频构造和共振峰构造的特征。通过与不带情感的平静的语音信号的比较,总结了不同情感语音信号情感特征的分布规律,为情感信号处理和识别提供了有实用价值的理论数据。
关键词: 情感特征 语音信号 时间构造 振幅构造 基频构造 共振峰构造
语言是人类交际的最重要的工具。人类的话语中不仅包含了文字符合信息,而且还包含了人们的感情和情绪等信息。例如,同样一句话,往往由于说话人的情感不同,其意思和给听者的印象就会不同,所谓“听话听音”就是这个道理。传统的信息科学世界只是处理符号信息的“无神经”的知识世界。例如,传统的语音处理系统仅仅着眼于语音词汇传达的准确性,而完全忽略了包含在语音信号中的情感因素。所以它只是反映了信息的一个方面。与知识世界相对应且具有同等重要地位的感性科学世界,也是信息处理的重要组成部分。因此情感信号特征的人工处理,在信号处理和人工智能等领域具有重要意义。
从语音信号提取情感特征,判断说话人的喜怒哀乐,是国外近几年刚刚兴起的研究课题。由于刚刚起步,这方面的研究成果还很少[5],就目前的研究水平来看,一般也都只限于通过分析情感语音信号的持续时间、发音速度、振幅、基频、频谱等变化特点,寻找能够反映情感特征的物理参数。本文针对含有欢快、愤怒、惊奇、悲伤等4种情感的语音信号,分析了它们的时间构造、振幅构造、基频构造和共振峰构造的特征。并且通过和不带感情的平静语音信号进行比较,找出了不同情感信号特征的分布规律。作为情感信号处理的初步研究,为汉语情感语音信号处理和情感识别提供了有实用价值的理论数据。
1 情感分析用语音资料的选择
适当选择用于情感分析的语音信号具有重要意义。然而,国内外现在还没有提出情感分析用语音资料的条件和标准[4]。在我们的情感分析实验中,对实验用语句的选择主要考虑了两个方面:第一,所选择的语句必须具有较高的情感自由度;第二,对同一个语句应该能施加各种情感进行分析比较。根据这两个原则,我们选用了如表1所示的4个语句作为情感分析用语音资料。并邀请了5名善于表演的男性话者用平静、欢快、愤怒、惊奇、悲伤等5种情感对每个句子各发音3遍,一共搜集了300个分析用语句。
录音是在安静的房间里并且使用索尼DAT设备完成的。录音数据使用创通公司PCI64位声卡通过11025Hz采样、16bit A/D变换转化成数字信号存储在PC机中。为了检验所搜集的实验用情感语音数据的有效性,我们做了一个听取实验。我们要求以上五名发音者以外的另三名实验者坐在电脑终端前,然后随机播放所搜集到的带有各种情感的语句,让实验者通过主观评价说出所放语音的情感类型。经过反复听取比较,对其中情感特征不明显的句子进行了删除和重新制作。
2 分析实验和结果
一般来说,语音中的情感特征往往通过语音韵律的变化表现出来[4]。例如,当一个人发怒的时候,讲话的速率会变快,音量会变大,音调会变高等,这些都是人们直接可以感觉到的。本文中,我们主要就含有欢快、愤怒、惊奇、悲伤等4种情感的语音信号的时间构造、振幅构造和基频构造等韵律特征和不含感情的平静语音信号进行比较,找出了不同情感信号特征的构造特点和差别。
为了求出分析所需要的语音信号韵律特征参数,首先按12kHz的抽样频率对输入信号进行A/D变换,然后对抽样信号加上窗长21.33ms(256点),窗移10ms的汉明窗,最后根据不同的分析需要求出短时能量,基音频率等韵律特征参数。
由于语音信号中的情感信息受到语句词汇内容的影响,所以为了使分析结果消除这方面的影响,一般都是通过分析情感语音和不带感情的平静语音的相对关系,找出这种相对特征的构造、特点和分布规律,用来处理和识别不同的情感语音信号。
2.1 时间构造的分析
分析情感语音的时间构造主要着眼于不同情感语音的发话时间构造的差别,对由情感引起的持续时间等的变化进行分析和比较。本文中我们主要就发话持续时间长度(简称为T)以及平均发话速率和情感的
关系进行了分析和比较。我们把上述300个语句按平静语音和4种感情语音进行分类。为了把情感发音和平静发音进行比较,我们分析了各类语句情感发音持续时间长度以及它们各自的发音速率的平均值和对应的平静发音响应参数的比值,找出了情感语音时间构造的特征。分析结果如图1所示。
从图1所示的情感发音时间构造分析结果可以看出,在发话的持续时间上,欢快、愤怒、惊奇的发音长度和平静发音相比压缩了,而悲伤的发音长度却稍稍伸长了。在被压缩的欢快、愤怒、惊奇中、愤怒的发音最短,其次是惊奇,然后是欢快。从发话速率和情感的关系来看,欢快、愤怒、惊奇和平静发音相比变快了,而悲伤却变慢了。通过进一步的观察可知,这些现象的产生是由于与平静语音相比,在情感语音中,一些音素被模糊地发音、拖长或省略掉了的缘故。
根据上述分析结果,我们可以利用情感语音的时间构造很容易地区分悲伤和其它情感信号。也可以通过设定某些时间特征阀值,来区分欢快、愤怒、惊奇的情感信号。至于愤怒和惊奇情感信号,显然光利用时间构造特征不足以进行有效的区分。
2.2 振幅构造的分析
一般来讲,信号的振幅特征与各种情感信息具有较强的相关性[5]。在我们的实际活动中也会有这样的感觉,就是当人们愤怒或者惊奇的时候,发音的音量往往变大,而当人们沮丧或悲伤的时候,往往讲话的声音很低。因此,在一些有关情感分析的研究中,振幅构造特性都是作为重要特征加以分析研究的。在本文中,我们主要针对振幅平均能量以及动态范围(分别简称为A和Arange)等特征量进行分析比较。我们求取语音信号每一帧的短时能量,分析它们随时间的变化情况。而且为了避免发音中无声部和噪音的影响,我们只考虑短时能量超过某一阈值时的振幅绝对值的平均值。分析结果如图2所示。其中图2(a)是话者B发语句1时的振幅能量的逐帧演示,图2(b)是各情感类型振幅能量相对值的直方图。
从分析结果可知,欢快、愤怒、惊奇三种情感发音信号和平静发音信号相比振幅将变大;相反地,悲伤和平静相比,振幅将减小。而且从听取实验可知,情感信号具有这样的倾向:欢快、愤怒、惊奇的平均振幅越大,悲伤的平均振幅越小,其情感效应表现的越明显。利用振幅特征,我们可以很清楚地把欢快、愤怒、惊奇、悲伤区分开来,另外,振幅特性也具有一定的区分欢快、愤怒和惊奇情感信号的能力。
2.3 基频构造的分析
基音频率也是反映情感信息的重要特征之一[5]。为了分析情感语音信号基频构造的特征,我们首先求出情感语音信号平滑的基频轨迹曲线[1],然后分析不同情感信号基频轨迹曲线的变化情况,找出不同的情感信号各自具有的基频构造特征。
本文分析了不同情感信号轨迹曲线的动态范围、整个曲线的基频平均值以及变化率(分别简称为F0,F0 range和F0 rate)等特征,这里的基频变化率是指各帧语音信号基频差分的绝对值的平均值,分析结果如图3所示。其中图3(a)是话者B发语句2时的基频的逐帧演示,图3(b)是各情感类型基频参数相对值的直方图。
与平静语音信号相比,欢快、愤怒和惊奇的平均基频、动态范围、平均变化率比较大,而相反,悲伤语音信号的则较小。对比较大的欢快、愤怒、惊奇来进,欢快语音信号的特征量最大,其次是惊奇和愤怒。另外,通过观察语音信号的基频轨迹曲线,我们发现了一个区分惊奇和其它情感信号的重要特征,那就是惊奇情感信号的基频轨迹曲线在句尾的地方往往有上翘的特征。图3反映了话者B发语句2时的基频的逐帧演示。
2.4 共振峰构造
共振峰是反映声道特性的一个重要参数。因为不同情感的发音可能使声道有不同的变化,所以,我们能够预料到不同情感发音的共振峰的位置不同。本文首先用线性预测法求出预测系数,然后用预测系数估计出声道的功率谱,再用峰值检出法(Peak Picking)[1]算出各共振峰的频率。本文为了简单起见,只研究了第一共振峰频率平均值、动态范围和变化率(分别简称为F1,F1 range和F1 rate)。分析结果如图4所示。其中图4(a)是话者B发语句4时的第一共振峰频率的逐帧演示;图4(b)是各情感类型第一共振峰频率参数相对值的直方图。
从图4中我们可以看出,相对于平静发音,欢快和愤怒的第一共振峰频率略微地升高了,而悲伤的第一共振峰频率明显地降低。通过进一步的观察,我们发现,这是因为人们在表达欢快和愤怒时,嘴比平静发音时张得更大的缘故。而在表达悲伤时,除了嘴张得比平时更小以外,还伴有模糊不清的鼻音。四种情感的第一共振峰频率的动态范围均比平静时要大,其中,惊奇最大。而四种情感的第一共振峰频率的变化率均比平静时要小,其中悲伤最小。
以上,我们从时间构造、振幅构造和基频构造三个方面,对含有欢快、愤怒、悲伤和惊奇四种情感的语音信号进行了分析比较。综合三方面的分析结果,我们可以归纳如下的情感信号的特征(均相对于平静发音而言),结果如表2所示。
由于存在一定的个人差,所以对于不同的话者,以上总结的分析结果存在不同程度的差异,但分析结果的总趋势是一致的。作为今后研究的课题,我们将进一步分析感情语音同它的频谱以及共振峰等特征之间的关系,为今后的情感语音信号处理寻找最佳的特征参数。
参考文献
1 周迪伟等译.计算机语音处理.北京:国防工业出版社,1987
2 王学仁,王松桂编译.实用多元统计分析.上海:上海科学技术出版社,1990
3 唐守正编著.多元统计分析方法.北京:中国林业出版社,1987
4 T.Shirasawa,T.Yamamura.Discriminating Emotion Intended In Speech.Japan:The preprint of the acoustical society of Japan,in 1996:96~38
5 大桥力等.情绪机器人的世界.讲谈社,1995