摘 要: 自适应变异粒子群算法具备了基本粒子群算法和遗传算法优点,用此算法寻找BP网络较好的网络权值和阈值,使得BP网络的全局误差最小化,不仅可以克服基本BP算法收敛速度慢和易陷入局部极值的局限, 而且模型的精度高。仿真实验结果表明,本算法与传统的分类方法相比,具有更高的正确率,验证了自适应变异粒子群算法优化BP神经网络是一种有效的分类方法。
关键词: 音乐分类;神经网络;粒子群优化算法;交叉算子
音频分类识别技术是利用计算机对音频信号进行分析,从而实现对声音自动理解的一门学科。音频分类识别技术己经成为信息科学中一个十分活跃的研究领域。作为一门交叉学科,它正逐步成为信息技术中人机交互的关键技术。音频分类识别是一个复杂的非线性过程,本质上是一个模式识别的问题,很多研究者在这个领域做了大量的工作,但均存在需要改进之处。如基于规则的音频分类方法难于满足复杂的、多特征的音乐分类应用[1];模式匹配法计算量大,分类精度低[2];隐马尔可夫模型(HMM)算法分类决策能力差,需要语音识别的先验统计知识等缺陷[3]。
人工神经网络是一种分布式并行信息处理系统,它的自适应、自组织及自学习等特征使其特别适合于音频识别中的分类问题,为解决音频分类识别这样的一个复杂的模式分类问题提供了新的途径。众多神经网络中,BP神经网络因其结构简单、算法成熟并能精确寻优而被广泛地应用于音频分类识别领域。但是,由于BP算法是一种基于梯度下降的算法,因而不可避免地存在收敛速度慢、易陷入局部极小点等缺点。近年来,人们围绕如何加速传统BP网络的收敛速度及尽量避免陷入局部最优解等问题做了大量的工作,并提出了许多改进方案[4-5]。
本文借鉴了遗传算法中的变异思想,提出了基于遗传交叉算子的自适应变异粒子群算法,它具备了基本粒子群算法和遗传算法优点,使粒子能够跳出先前搜索到的局部最优解,在更大的空间中开展搜索,同时保持了种群多样性,提高算法寻找到更优解的可能性。因此可以充分利用BP神经网络与自适应变异粒子群算法的优点,把两者结合起来,优势互补,在全局搜索的同时利用梯度法加速寻优,从而能改善整个网络的学习性能和收敛性能,最终提高整个系统的识别率。
1 BP神经网络
误差反向传播神经网络(简称BP神经网络),它是一种单向传播的多层前向网络,网络中除了输入输出节点外,还有一层或多层的隐含层节点,且同层节点间没有任何祸合。输入信号从输入层节点依次传过各隐含层节点,然后传到输出层节点,每一层节点的输出只影响下一层节点的输出。
经过上述计算,由父代粒子形成的超立方体中随机产生了两个新的位置,其中在速率的交叉处将两个父代个体的速率之和的长度进行了规格化。因此,只有粒子的方向受到影响,数量却不会改变。
3 自适应变异粒子群算法优化BP神经网络
自适应变异粒子群算法优化BP神经网络分为BP神经网络结构确定、自适应变异粒子群算法优化和BP神经网络预测三部分。其中BP神经网络结构确定部分是根据应用的输入输出参数个数确定BP神经网络结构,进而确定粒子群算法个体的长度。自适应变异粒子群算法优化BP神经网络的权值和阈值,种群中的每个个体都包含了一个网络所有权值和阈值,个体通过适度函数计算个体适应度值,然后更新个体极值和群体极值来寻找到最优适应值对应个体。BP神经网络预测用自适应变异粒子群算法得到的最优个体对网络初始权值和阈值赋值,网络经训练后预测结果。
自适应变异粒子群算法优化BP神经网络算法流程如图2所示。
4 实验仿真与结果讨论
4.1 网络训练与识别
本文选取了民歌、古筝、摇滚和流行四类不同音乐,每段音乐都用倒谱法提取500组24维语音特征信号,共有2 000组语音特征信号。由于语音特征输入信号有24维,待分类的语音信号共有4类,所以BP神经网络的结构为24-25-4,即输入层有24个节点,隐含层有25个节点,输出层有4个节点。
从语音特征信号数据中随机选择1 500组数据作为训练数据用来训练网络。根据语音特征信号的特性并参考经典PSO参数集,本文设置算法的基本参数如下:(1)粒子规模数n=30;(2)粒子维数D=729;(3)最大速度vmax=1;(4)最大迭代次数设为100次;(5)终止条件,循环达到终止迭代次数或最优适度值连续迭代50次,计算结果差值小于0.000 5;(6)粒子群节点适应度函数使用BP算法的MSE(Mean Squared Error)定义。
用PSO得出的最优解确定BP网络的权值和阈值,从2 000组语音特征信号中随机选择1 500组数据作为训练数据用来训练网络,500组数据作为测试数据用来测试网络的分类能力。将这个分类号与输入自带的分类号进行比较,相等则识别正确;反之,识别错误。最后将识别正确的个数与所有待识别数作比值即可得到最终的识别率。
4.2 结果与分析
用训练好的BP神经网络分类语音特征信号测试数据,图3 所示是BP神经网络分类误差,图4所示是预测结果。
为了验证自适应变异粒子群算法优化BP神经网络基于遗传交叉算子的改进粒子群算法优化BP神经网络(HPSOBPNN)的有效性,同时用其他模型(GABPNN、PSOBPNN、BPNN、模式匹配法、HMM)进行了的实验,结果如表1所示。从表1可知,HPSOBPNN分类正确率比其他模型方法有了明显的提高。
音频的自动分类,尤其是语音和音乐的分类,作为提取音频内容语义和结构的重要手段之一,其研究也日益地引起关注。本文采用倒谱系数法提取音乐特征,利用自适应变异粒子群算法优化BP神经网络对音乐类型进行分类,与其他方法相比,其分类正确率有了明显的提高。仿真实验结果表明,该方法分类性能较好,具有一定的现实意义与参考价值。
参考文献
[1] Tian Lan, Lu Xiaoshan,Bai Shuzhong. Speaker-independent speech recognition based on a fast algorithm[J]. Control and Decision, 2002,17(1):65-68.
[2] DOWNIE T R, SILVERMAN B W. The discrete multiple wavelet transform and thresholding methods[J]. IEEE Trans on Signal Processing,1998,46(9):2558-256.
[3] TZANETAKIS G, COOK P. Musical genre classification of audio signals[J]. IEEE Trans. on Speech and Audio Processing, 2002,10(5):293-302.
[4] MANIEZZO V. Genetic evolution of the topology and weight distribution of neural networks[J]. IEEE Trans on Neural Networks, 1994,5(1):39-53.
[5] HAGAN M T, MENHAJ M B. Trainning feed forward networks with the marquardt algorithm[J]. IEEE Trans on Neural Networks, 1994, 5(6):989-993.
[6] EBERHART R C, KENNEDY J. A new optimizer using particle swarm theory[C]. Proc. of the 6th Int’1 Symp. on Micro Machine and Human Science. Nagoya, Japan:[s. n.], 1995.
[7] CLERC M. The swarm and the queen: Towards a deterministic and adaptive particle swarm optimization [C].Proc. 1999 Congress on Evolutionary Computation. Washington, DC: [s. n.], 1999:1951-1957.