蒋磊磊,秦丽娟,李武举
(沈阳理工大学 信息科学与工程学院,辽宁 沈阳 110159)
摘要:手势识别正在成为人机交互技术研究中的一种重要模式,运用摄像机和计算机视觉技术捕获静态手势图像,在YCrCb空间下利用高斯分布对肤色建模,通过计算背景颜色像素概率分割出干净的手势图像,再采用基于Sugeno模糊模型的自适应神经模糊推理系统识别手势。与传统的神经网络识别系统相比,该识别方法具有较好的自适应性和鲁棒性。实验结果表明,基于Sugeno模糊模型的自适应神经模糊推理系统能够有效地进行特征学习,正确识别率可以达到95%左右,是一个非常有效的静态手势识别方法。
关键词:人机交互;手势;基于Sugeno模糊模型;自适应神经-模糊推理
中图分类号:TP751;TP753文献标识码:ADOI: 10.19358/j.issn.1674-7720.2016.24.015
引用格式:蒋磊磊,秦丽娟,李武举. 基于Sugeno模糊模型的ANFIS在手势识别中的应用[J].微型机与应用,2016,35(24):50-53.
0引言
近年来,随着计算机技术的快速发展和互联网应用的迅速普及,人机交互已经成为人们日常生活中必不可少的组成部分[1]。自然的人机交互方式可以降低操作难度,避免身体单一部位的重复劳动。传统意义里向计算机输入信息的交互方式如使用鼠标、键盘、遥控、触摸屏、游戏摇杆等读入设备,都是以机器为中心,用户需要去适应学习预先设定的规范之后才能应用机器的基本操作。这些人机交互方式已成为人机交流联系的瓶颈,因为用户不能使用自己最习惯的方式(如手势等)与计算机进行交互。
手势是人有意识地作出的手的动作,不论是操作使用工具还是与其他人进行交流,手势都能表达出做手势者的想法与意图。由此应运而生的手势识别技术为人们提供了人与计算机进行交互的最自然的方式。基于手势识别技术,人们能够与计算机创造的虚拟环境进行直接交互。目前,手势识别技术的研究是虚拟现实技术研究的主要内容之一。
1手势图像的预处理与手势分割
ANFIS[2]用于手势图像处理的一般流程[3]如图1所示。
1.1图像的预处理
在复杂背景下,不同光照变化也会导致肤色的亮度发生变化,这就需要采用一种可靠的颜色空间模型。研究表明YCrCb颜色空间[4]具有亮度和色度分离的优点,既能充分表达人手肤色,又能在很大程度上消除亮度影响,降低了色彩空间的维数,减少了计算复杂度。在YCrCb空间下利用高斯分布对肤色建模,计算出图像中各点属于肤色的概率值,可以分割出手势区域。基于高斯分布对肤色建模的计算公式如下:
P(Cb,Cr)=exp{-0.5(x-m)TC-1(x-m)}
其中:x为样本像素在YCrCb空间的值x=(Cb,Cr)T,m为肤色在YCrCb空间的样本均值,m=E(x);C为肤色相似度模型的协方差矩阵,C=E{(x-m)(x-m)T}。
通过计算图像每个像素点属于肤色的概率值P,可以建立一个完整的肤色概率分布矩阵,采用最大类间方差法(OTSU)对肤色概率矩阵进行自适应值的二值化处理,在二值化处理的图像中,像素值为1的亮色区域表示是肤色点,像素值为0的暗色区域表示非肤色点。
使用高斯滤波,消除手势图像中的噪声,恢复有用的手势信息,增强手势目标的可检测性和最大限度地简化背景图像数据。经过二值化和滤波处理的图像,手势区域边缘会存在大小不一的空洞,具有毛刺或不完整的轮廓,形态学的膨胀算法可以扩展二值图像中的亮度区域,腐蚀算法可以扩展二值图像中的暗色区域。去除二值图像中孤立的噪声点和手势区域边缘不平滑的凸出部分,同时对二值图像的孔洞进行填充。
1.2手势图像的分割
OTSU法[5]是一种动态的阈值分割算法。按照手势图像灰度特征将手势图像分成目标和背景两部分,选择门限值划分使得背景和目标之间的方差最大。背景和目标之间的类间方差越大说明这两部分的差别越大,目标图像就越容易从背景图像中分割出来。
现在,手势图像的灰度值为1~N级,t为选定的阈值,那么图像就被分成两组。假设A代表背景,PA为背景出现的概率,同理B为目标,PB为目标出现的概率,Pi是N个灰度级每个出现的概率。计算背景和目标两个区域的类间方差过程如下:
(1)背景和目标的出现概率:
在1~N之间改变t的值,当δ2取最大时对应的t的值为最佳阈值,因此δ2是选择阈值的函数。该方法不管图像的直方图是否有明显的双峰,都能得到比较满意的结果。本文使用上述方法取得了不错的效果,图2和图3是室内与室外手势分割的效果图。
2自适应神经-模糊推理系统(ANFIS)
自适应神经元模糊推理系统[6](Adaptive Neural Fuzzy Inference System, ANFIS)是一种把模糊逻辑方法和神经网络方法有机融合在一起的新型神经网络结构,借助神经网络的信息存储能力和学习能力,在对广泛选择的训练样本进行学习后,优化了控制规则、各语言变量的隶属函数及每条规则的输出函数,使ANFIS系统本身朝着自适应、自组织、自学习的方向发展。
Sugeno模糊模型是一种用来在给定的输入/输出数据集中产生模糊规则的系统方式。一阶Sugeno模糊模型如下:
y=k0+k1x1+k2x2+…+kmxm
图4表示基于Sugeno模糊模型的自适应神经-模糊推理系统模型。
下面讨论每一层的作用。
第1层是输入层。该层的神经元简单地将外部信号传送给第2层,即
y(1)i=x(1)i
其中,x(1)i是第一层中神经元i的输入,y(1)i是第1层中神经元i的输出。
第2层是模糊化层。该层中的神经元的作用是执行模糊化操作。其中模糊化神经元有一个钟形激活函数(bell activation function)。钟形激活函数由线为规则的钟形形状,其定义为:
其中,x(2)i是第2层中的神经元i的输入,y(2)i是第2层输入神经元的输出。ai、bi、ci分别为控制神经元i的钟形激活函数的中心、宽度和斜率的参数。
第3层是模糊化层。规则神经元从各自的模糊化神经元接收输入,并计算它表示的规则激发强度。在ANFIS中,规则前项的链接由“乘积”操作来评估。因此,第3层的神经元的输出可表示为:
其中,x(3)ji和y(3)i分别为第3层规则神经元i的输入输出。例如:
y(3)1=μA1×μB1=μ1
其中μ1的取值代表规则1的激发强度或真值。
第4层是归一化层。该层接收并计算给定规则的归一化激发强度。归一化强度是给定规则的激发强度和所有规则激发强度的总和的比值,它表示给定规则对最终结果的贡献。因此,第4层神经元i的输出为:
第5层是去模糊化层。该层中的每个神经元均连接到各自的归一化神经元上,同时接收初始输入x1和x2。去模糊化神经元计算给定规则的带权重的后项值:
y(5)1=x(5)i[ki0+ki1x1+ki2x2]=1[ki0+ki1x1+ki2x2]
其中,x(5)i和y(5)i分别为第5层去模糊化神经元i的输入和输出,ki0、ki1、ki2是规则i的后项参数的集合。
第6层为总和神经元,作用是计算所有去模糊化神经元输出的总和,产生ANFIS总输出y:
y=∑ni=1x(6)i=∑ni=1i[ki0+ki1+ki2]
3基于Sugeno模糊模型的ANFIS在手势识别中的实现
3.1ANFIS的学习样本
首先选择1~10的手势样本进行训练,每类手势训练样本的数量要近似相等,避免由于训练样本数量的不同导致个别类别响应过于敏感或者过于迟钝,同时能大幅度提高训练速度,避免网络陷入局部极小点。
以中国传统的标准手势为例,如图5所示。
由于神经网络[7]不具有不变识别的能力,要使网络对手势的旋转、伸缩具有不变性,要尽可能选择各种情况的手势样本。每个手势选用200个样本进行训练,尽量选择不同方向、不同大小的手势样本,这样可以保证网络系统在较为复杂背景下有较高识别率。训练样本如图6所示。
提取预处理后的手势图像特征向量,同来训练系统参数。
3.2基于Sugeno模糊模型的ANFIS在手势识别的结果
从分割出来的手势图像中提取出特征向量作为识别系统的输入。本文使用以下三种识别方法:基于自适应神经模糊推理系统(ANFIS)、基于BP神经网络[8]的识别方法和基于模糊神经网络[9]的识别方法,并比较三者的识别率。为了系统学习和输入的方便,本文采用同样且同等数量的样本进行学习,同等条件下经过200次的实验后得到的结果是:基于自适应神经模糊推理系统(ANFIS)的手势识别率比另外两种方法的识别率高。具体实验数据如表1所示。
根据表中的数据制成链表,直观表现三种识别方式的优劣,如图7所示。此外识别率还受系统学习次数的影响,具体如图8所示。
4结论与展望
针对传统神经网络的不足,本文提出的自适应神经-模糊推理系统充分发挥了自适应、模糊化和神经网络的优点,具有适应性强、学习能力好的特点,提高了系统的鲁棒性。此外对手势的识别率也有了显著的提高。对于手势本身的多样性、多义性、差异性等特点以及技术的局限,尤其是在复杂的环境下,当人手和人脸重合或者人手与背景肤色相差不多的情况下,并不能很好地从图像中提取出完整的无噪声的手势图像。此外目前采用的识别系统在识别率与时间效率还不能同时完美实现,如何在保证目标识别率的前提下,获得理想的处理速度,提高系统实用性,这将是一个重要的研究课题。
参考文献
[1] 武霞,张崎,许艳旭. 手势识别研究发展现状综述[J]. 电子科技,2013,26(6):171174.
[2] NEGNEVITSKY M. 人工智能:智能系统指南[M]. 北京:机械工业出版社, 2012.
[3] 范会敏,王浩. 模式识别方法概述[J]. 电子设计工程,2012,20(19):4851.
[4] 邱迪. 基于HSV与YCrCb颜色空间进行肤色检测的研究[J]. 电脑编程技巧与维护,2012(10):7475.
[5] 李梅. 基于Otsu算法的图像分割研究[D].合肥:合肥工业大学,2011.
[6] 张小娟. 自适应神经模糊推理系统(ANFIS)及其仿真[J]. 电子设计工程,2012,20(5):1113.
[7] 冯桐. 基于神经网络的手势识别研究[D].北京:北京理工大学,2015.
[8] 李歌. 基于BP神经网络的手势识别研究[D].秦皇岛:燕山大学,2013.
[9] 齐镗泉. 基于动态模糊神经网络的手势识别算法研究[D].重庆:西南大学,2011.