摘 要: 提出了一种基于多权值神经网络模型的静态手势语识别方法。应用手势字母图像圆周极径序列的傅立叶频谱信息来提取特征,再结合多权值神经网络的训练算法与识别算法,实现静态手势字母的识别,并取得了很好的识别效果。
关键词: 多权值神经元; 人机交互; 手势识别; 手势字母
随着计算机技术的飞速发展,人机交互技术由先前的以计算机为中心逐渐向以人为中心转移。人的运动分析[1]已经成为人机交互和识别领域中的主要研究方向之一,各种先进的人机交互技术不断涌现,包括人脸识别、面部表情识别、头部运动跟踪、唇读、手势识别及体语识别。其中手势识别是一种比较直观、自然、易于学习的交互手段,人们以手直接为计算机输入设备,省去人机通信媒体以实现机器控制的目的[2];此外,对手势识别的研究有助于提高计算机的人类语言理解水平,加强人机接口的实用性,有助于改善与提高聋哑人的生活学习条件。目前研究的手势识别系统主要分为基于数据手套的和基于视觉的两类,前者给使用者带来一定程度上的不便,而后者已逐渐成为计算机视觉及人机交互领域里的一个研究热点。由于视觉本身的不稳定性,给识别算法带来挑战与难度[3]。在基于视觉手势识别的研究中,识别较高的多为从手区的几何特征来识别,如手指、手指方向、手的外廓等。就识别方法而言,主要有神经网络[4]、隐马尔可夫模(HMM)与模板匹配等。GROBEL K和ASSAM M等人从视频录像中提取特征,并应用HMM技术识别262个孤立词,正确识别率达91.3%[5]。TRIESCH J等人使用弹性曲线匹配的方法,在复杂背景下实现手势识别,正确率达85%,但该算法较为复杂,计算量大[6]。
本文提出应用多权值神经网络[7-8]方法对静态手势进行识别,对手势字母图像采用傅里叶描述子提取特征信息,取低频信息成分构建成32维特征向量,并应用多权值神经网络的算法,构建各类的神经元网络对图1中的22个手势字母(a,æ , b, c, d, e, f, g, i, k, l, n, o, q, r, s, t, u, v, w, x ,y)共440个样本(独立测试集)作识别研究,正确识别率达97.95%,取得了理想的效果。
1 材料与特征提取
实验表明,当n=32时,即取前32个谐波分量足以描述手势字母的外形轮廓,因此本实验取前32个谐波分量作为表征该样本的特征向量。
2 多权值神经网络
2.2 识别算法
3 实验与结果分析
本研究的数据集分训练样本集与独立测试样本集,22类手势字母,每类40个,共880个样本。在识别过程中,为研究该识别模型的识别能力,将每类训练样本逐次减少原来的20%,保留独立测试集不变,如表1所示。
从识别结果上分析,随着每类训练样本数减少,正确识别率依次下降的幅度比较小。取每类训练样本数Num=20时,正确识别率为97.95%,其余的对应结果如图2所示。
实验结果表明,随着每类训练样本数的下降,该模型的正确识别还保持相对高的程度,当取Num=4时,其对应的正确识别率为85.45%,这说明该模型具备很好的稳定性,对训练样本数不很敏感。
本文研究的手势字母识别特征提取采用傅里叶描述子的方法,因为该方法具有图像旋转、平移不变性的特点,结合类似人类认知方法的识别方法,即采用覆盖思想的识别机制[10],取得了很好的识别效果。实验证明,该方法在静态手势字母语识别问题上具有可行性,为手势图像识别等提供了一种有效的途径。
参考文献
[1] 王亮, 胡卫明, 谭铁牛.人运动的视觉分析综述[J].计算机学报, 2002,25(3):225-237.
[2] 邹晨,张树有,谭建荣,等. VR环境中产品设计手势的定义与合成[J]. 工程图学学报, 2002,21(2):107-110.
[3] 吴江琴, 高文. 基于数据手套的汉语手指字母识别[J]. 模式识别与人工智能, 1999,12(1):74-78.
[4] 邓志国. 基于BP神经网络的静态手势识别的方法[J]. 华东交通大学学报, 2005, 22(5): 86-88.
[5] GROBEL K, ASSAM M. Isolated sign language recognition using hidden markov models[C]. In Proceedings of the IEEE International Conference on Systems,Man and Cybernetics, Orlando, FL, 1997:162-167.
[6] TRIESCH J, MALSBURG C von der.A system for person independent hand posture recognition against complex back grounds[J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2001,23(12):1449-1453.
[7] 王守觉, 李兆洲, 陈向东,等, 通用神经网络硬件中神经元基本数学模型的讨论[J].电子学报,2001,29(5): 577-580.
[8] WANG Shou Jue. A new development on ANN in China-Biomimetic pattern recognition and multi weight vector neurons[J]. Lecture Notes in Artificial Intelligence, 2003, 2639:35-43.
[9] BIRK H, MOESLUND T B, MADSEN C B. Real-time recognition of hand alphabet gestures using principal component analysis[D]. Master's Thesis, Aalborg University,Danmark,1996.
[10] OTSU N. A threshold selection method from gray level histogram[J]. IEEE Transactions on Systems, Man and Cybernetics, 1979,9(1):62-66.