摘 要: 针对事例检索算法中最近邻算法判断盲目、计算量大等问题,改进为聚类C-均值算法;对C-均值聚类对初值敏感,分类结果受到取定的类别数目及聚类中心初始位置的影响,及易陷于局部极小值等问题,再次将改进的算法结合改进后的最大最小距离法,以优化初始聚类,将最终改进的算法进行了仿真比较。将最终改进的算法运用于情感智能教学中,创建了面部表情的子表情模板,提高了表情的识别率。
关键词: CBR;事例检索;聚类C-均值算法;表情识别
智能教学系统(ITS)从概念形成到现在一直是计算机科学和教育科学领域结合的一个研究热点。此后情感识别成为最大的研究热点,进而也产生了一些适用的方法,比如可穿戴情感识别设备[1]等;还出现了一些关于情感教学系统(ATS)的研究 [2]。但目前这些研究还处于起步阶段,仍存在一定问题。本文将基于事例的推理(CBR)运用于情感智能教学中,首先针对事例检索算法中最近邻算法判断盲目、计算量大等问题,改进为C-均值聚类算法;再针对C-均值聚类对初值敏感等缺点,二次优化为改进的最大最小距离法;最后将改进的算法运用于面部表情子表情模板的分类中,以提高表情识别率。
1 基于事例的推理(CBR)和事例的检索
1.1 基本原理
CBR的理念是将新问题抽象为一个新事例,通过从事例库中检索最相近的事例,参考其解决方案作为新事例的解决方法,在此基础上再进行事例修正。修正后的新事例及其解决方法继续存入事例库中,实现解决问题经验的学习[3]。CBR系统是一个完整的循环,在事例的提取(Retrieve)、重用(Reuse)、修正(Revise)、保存(Retain)[4]过程中,事例检索是重要环节,而且检索本身具有一定的模糊性,大多数情况下检索到与新问题类似的事例,然后根据新旧事例之间的相似程度判断推理的可信程度。
1.2 基于聚类的改进算法
在CBR系统中事例检索广泛采用的是最近邻法,其基本原理是:通过判断新事例与每一旧事例的欧氏距离,找出相似的事例。由于此算法没有控制策略,导致判断盲目、计算量大,是一种低效率的算法[5]。对此提出如下改进:首先对事例库进行聚类预处理,使得归类后同一类事例之间的特征向量相互靠近,并且找到每个聚类的均值。然后,新事例直接与每个代表点进行比较,找到与它最相近的聚类并在这个聚类中采用以上的最近邻法搜索最相近的事例[6]。
C-均值算法是一种常用的聚类算法,引用聚类C-均值算法对事例库进行聚类之后,便可采用最近邻法进行推理。推理时,新事例只需要与每个代表点进行比较,找到与它最相近的聚类并在这个聚类中搜索最相近的事例,这样避免了盲目搜索,实现了算法优化。但是,C-均值算法对初值敏感,即不同的初值可能会导致不同的聚类结果,分类结果还受到取定的类别数目及聚类中心的初始位置的影响。由于是基于梯度下降的算法,则不可避免地会常常陷于局部极小值。
1.3 最大最小距离算法的二次改进
1.3.1 算法思想
在最大最小距离算法中,原则是取尽可能离远的对象作为聚类中心,初始聚类中心通过随机指定。在C-均值聚类算法的基础上添加优化选取初始聚类中心,对该算法进行首次改进。为了解决聚类结果对初始聚类中心敏感的问题,加入粗分类环节,对该算法进行二次改进:初始聚类中心同时选取样本中距离最远的两个样本作为前两个初始中心,然后运用最大最小距离算法进一步确定其余初始中心进行粗分类,具体的算法流程:
(1)聚类类别数C的确定。范围为样本集的数据个数N。
(2)第一、二个聚类中心的确定。计算样本集中任意两点的欧氏距离di1~i2,取dn1~n2=max{di1~i2},其中n1,n2的取值范围也为样本集的数据个数N,则dn1~n2对应的点z1,z2为所求。
(3)其余聚类中心的确定。取样本集中的任一点,计算出与步骤(2)得出的两个中心点的距离,分别取最小值组成一维的最小值数组,数组中的最大值对应的点为第三个聚类中心。重复执行此步骤,就可得到所有的聚类中心值。
(4)粗分类。当所有的聚类中心都确定后,将样本集中各数据按最小距离原则分配到各类中去,得到粗分类的分类结果。
1.3.2 仿真比较
运用改进的最大最小距离算法进行粗分类,初始的随机数据矩阵组成事例库,数据样本单位为相对度量。确定最优的聚类数C=4,而后运用C-均值聚类算法进行分类,比较图如图1所示。
2 基于事例推理的情感智能教学研究
2.1 教学智能情感化模型设计
教学智能情感模型主要包括:情感识别模块、情感分析模块、反馈模块及评价模块。此外,系统还有在线教学模块、教学反馈模块、登录退出模块等,结构设计如图2所示。
2.2 基于改进事例推理的情感识别模块
学生的情感状态能够基于语音、面部表情、血压等机制进行识别。为了有效地理解学生的情感状态,本识别模型采用基于多模式的情感识别方法,此方法分为三部分:基于视觉的面部表情识别、身体动作识别、以及基于听觉的会话信息(语音)识别。本文重点研究面部表情识别。
2.2.1 面部表情识别流程
具体的面部表情识别流程如图3所示。所有的表情图像都要经过小波变换求出特征向量,并对特征向量进行训练、投影变换,以求得特征空间。表情模板的建立、表情的分类等都在此特征空间进行。
2.2.2 基于改进C-均值聚类的子类表情模板
由于表情因人而异,因此很难只使用一个表情模板来代表一种表情,需要对每种表情再划分成多个子类。本文选用耶鲁大学计算视觉与控制中心创建的Yale人脸数据库,来进行子表情模板的划分。其中,有15位志愿者的各种表情,只选用“高兴”表情,如图4所示。对图中每一位志愿者的表情,经过Hough小波变换求出特征向量和一阶矩,对样本属性单位进行无量纲化和归一化,并使用分析方法对特征向量进行训练,投影变换到特征空间。对子类表情的再分类,则采用上文改进后的最终算法进行聚类,聚类的结果如图5所示。
根据图5,将图4的“高兴”表情进行模板划分,再次分为两个子表情模板,各子表情模板如图6、7所示。
基于事例推理(CBR)研究的兴起,体现了人类认识世界、改造世界的一种方法论上的转变。而CBR是一种方法而非一种技术,这种界定使CBR成为一个开放的系统,在解决非结构化、知识获取困难、复杂环境下的决策问题方面显示了其优越性,对CRB理论、技术的研究和应用具有广阔的前景和巨大的现实意义。
参考文献
[1] PICARD R W, Affective learning -a manifesto[J]. BT Technology Journal. 2004,22(4):253-269.
[2] ALEXANDER S T V. An affect-sensitive intelligent tutoring system with an animated pedagogical agent that adapts to student emotion like a human tutor[M]. Massey University,Albany, New Zealand, 2007.
[3] 韩军,车文刚.CBR—一种新型的人工智能推理方法[J].昆明理工大学学报(理工版),2003,28(1):88-91.
[4] PLAZA E, ARMENGOL E, TIAGO S. The explanatory power of symbolic similarity in case-based reasoning[J].Artificial Intelligence Review, 2005,24:145-161.
[5] 陈真勇,何永勇,褚福磊.基于遗传进化的最近邻聚类算法及其应用[J].控制与决策,2002(7):466-471.
[6] 魏传锋,庞彧.改进的最近邻法在基于事例推理中的应用[J].系统仿真学报,2005,17(5):1045-1047.
[7] 单凯晶,肖怀铁.初始聚类中心选取的核C-均值聚类算法[J].计算机仿真,2009,26(7):118-121.