文献标识码: A
文章编号: 0258-7998(2015)02-0160-03
0 引言
高复杂度、样本数据规模的持续增长是时间序列的两大特点[1]。时间序列预测算法是从传统的以ARIMA模型为核心的线性预测算法发展到以机器学习算法为核心的非线性预测算法。线性预测算法能够以较低的计算复杂度获得较为理想的运算结果,非线性预测算法能够很好地逼近任意复杂度的非线性函数。而组合预测算法针对同一时间序列,结合线性和非线性模型的优点,可以获得更佳预测效果。
组合预测方法由J.M.Bates和C.WJ.Granger在1969年首次提出,并广泛应用于各个领域。如ARIMA模型和SVM算法的组合在预测股票走势时,预测精度与单一模型相比有明显提高[2]。利用粒子群算法优化的BP神经网络的学习算法,结合ARIMA和GM灰色预测的三个模型的组合预测也证明了其有效性与精确性[3-4]。ARIMA和BP的组合方案被应用于海洋流速、城市交通客流量的预测中[5-6]。
时间序列预测属于对时间序列规律的总结归纳,是犯罪数据挖掘的重要应用之一[7-8]。在犯罪预测领域,国内外学者进行了一系列研究。如对犯罪预测的研究方法的探索[9];通过相空间重构针对时间序列进行重构,并使用基于粒子群(Particle Swarm Optimized,PSO)优化的最小二乘支持向量机LSSVM建立犯罪趋势预测模型[10];使用SVD算法对犯罪时间序列进行分解及预测[11]等,但单一模型预测的精度还有待改善。基于此,如何对犯罪时间序列进行精确和高效的预测成为一个重要的研究课题。本文提出的混合模型利用ARIMA、LSSVM和组合预测法的优势,对微软公共犯罪数据集进行建模与预测。通过仿真实验得出结论,ARIMA-LSSVM混合模型与常用的ARIMA-BP混合模型相比,预测精确度有明显提高。
1 时间序列预处理-相空间重构
对于高维时间序列数据,在建模之前需对序列预先进行相空间重构PSR处理。
首先对长度为N的原始时间序列Xt={x1,x2,…,xN}进行处理,得到延迟序列Y(t):
其中,?子称为延迟算子或采样算子,m称为嵌入的维度。
然后建立Y(t)到Y(t+T)的映射函数关系:
YF(t+T)=f(Y(t))+et(2)
其中,Y(t)为原始序列,YF(t+T)为预测序列,et为典型噪声因子。
由式(2)可得:
因此预测结果可以表示为:
其中,x为t+T+(m-1)子时刻时间序列的取值。由式(3)和式(4)可知,YF(t+T)中包含主要预测结果。
2 ARIMA模型
ARIMA(Autoregressive Integrated Moving Average Model)模型表达式为ARIMA(p,d,q)。其中d代表差分次数,p和q分别代表自回归和移动平均系数。
模型定义如下:
引入延迟算子(B):
模型简化为:
若xt为非平稳序列,通过差分得到平稳序列zt:
其中,d为差分次数。
3 LSSVM模型
最小二乘支持向量机LSSVM 是结构最小化风险函数为二次损失函数的支持向量机。
支持向量机分类器的表达式为:
其中,k=1,…,N;?棕为权重值,b为结构风险规则。xk为输入模式,yk为输出。?准为将输入数据映射到高维特征空间的非线性映射。?着k为误差变量。
对于最小二乘支持向量机,基于结构风险最小化原则,优化问题为:
其中,?酌>0,为正则化参数。
根据Karush-Kuhn-Tucker(KKT)条件和Mercer条件,LSSVM的优化问题转化为求解线性方程,最后得到方程:
LSSVM的核函数径向基RBF核:
其中,?滓为核宽度。RBF内核适用于大多数预测问题,且效率高,处理速度快。使用粒子群优化算法PSO优化的LSSVM比传统LSSVM具有更好的分类效果[12]。
4 ARIMA-LSSVM混合模型
混合模型包括一个线性模型和一个或多个非线性模型。混合模型Zt可以表示为:
Ht=Lt+Nt(13)
其中,Lt和Nt分别为混合模型的线性和非线性成分。
首先由线性模型ARIMA得出序列预测值t,与原序列值相减计算得到预测残差?着t:
然后用非线性模型LSSVM对残差序列进行建模:
其中,f(·)为非线性函数,?着t-n为t-n时刻的残差,?驻t为随机误差。
最后,残差序列经过非线性模型修正后得到t,相加得到最终结果:
Granger的实验证明混合模型要取得最优预测效果,成员模型应该是次优的[13]。ARIMA模型在短期预测中预测误差较小[14],混合模型首先利用ARIMA获取较为精确的预测序列,与原序列相减得到残差序列。残差序列对应于ARIMA无法解释的非线性规律,然后使用LSSVM模型对非线性部分进行建模与预测。最后将两部分的结果相加得到混合模型最终预测结果。算法框架图如图1所示。
5 实验
5.1 数据集
实验数据集为1993年~2009年美国警方记录在案的犯罪数据[15],实验环境为SPSS16.0和MatlabR2011a。
5.2 预测模型的评判标准
使用如下统计量检验模型的拟合效果和预测效果:
其中,Zt、t分别为真实值和预测值。MSE和MAPE分别为均方误差和平均绝对百分比误差。n为预测样本个数。eMSE和eMAPE值越小,表明模型的预测精度越高。
5.3 预测模型的参数选择
ARIMA模型的参数根据自相关函数图ACF和偏自相关函数图PACF进行选择。LSSVM模型使用RBF核函数和二维栅格搜索方法寻找最优核参数。BP神经网络结构设置为3-10-5-1。
5.4 实验方案
首先对模型ARIMA、GM、BP、LSSVM进行时间序列建模,计算其预测误差,结果见表1。
结果表明,ARIMA、BP、LSSVM 3种算法的误差较小。综合建模和预测效果,选取ARIMA、LSSVM、BP作为对比模型。
然后使用本文提出的 ARIMA-LSSVM 混合模型进行预测,预测的结果对比如图2所示。横坐标表示时间序列的序列号K,纵坐标表示对应时刻的犯罪数据。K=12,13,14时曲线对应于2007~2009年的预测值。算法预测参数对比见表2。
实验结果表明,ARIMA-LSSVM对犯罪时间序列的预测误差 MAPE远小于其他预测模型,预测准确度也较高。由于单一的线性模型或者非线性模型预测具有不稳定性,而本文选取的模型充分考虑了时间序列的平稳和非平稳性,使预测容纳更多隐含信息,结合模型的优势,大大提高了预测的稳定性和精确性,预测的结果更有实际意义。
6 结论
本文使用ARIMA-LSSVM混合模型对犯罪时间序列进行组合预测,结果表明与ARIMA-BP混合模型相比, 该模型对小样本的犯罪时间序列具有更高的预测精度和有效性。本文属于针对时间信息的归纳与推测,而结合空间信息和时间信息的时空分析与预测更能体现犯罪数据之间的紧密联系,分析结果包含更多信息,是未来进一步的研究方向。
参考文献
[1] 何书元.应用时间序列分析[M].北京:北京大学出版社,2004:185-229.
[2] Pai Pingfeng,Lin Chih-Sheng.A hybrid ARIMA and supportvector machines model in stock price forecasting[J].Omega,2005,33(6):497-505.
[3] 崔吉峰,乞建勋,杨尚东.基于粒子群改进BP神经网络的组合预测模型及其应用[J].中南大学学报:自然科学版,2009,40(1):190-194.
[4] 单锐,王淑花,李玲玲,等.基于ARIMA,BP神经网络与GM的组合模型[J].辽宁工程技术大学学报:自然科学版,2012,31(1):118-122.
[5] 董世超.基于ARIMA-BP神经网络模型海流流速预测研究[J].中国科技信息,2014(2):86-88.
[6] 刘杰.城市交通枢纽短期客流量的组合预测模型[J].交通信息与安全,2014(2):41-44.
[7] Fu Tak-chung.A review on time series data mining[C].Engineering Applications of Artificial Intelligence,2011,24(1):164-181.
[8] Yu Chung-Hsien.Crime forecasting using data mining techniques[C].Data Mining Workshops(ICDMW),2011 IEEE11th International Conference on.IEEE,2011:779-786.
[9] 黄超,李继红.犯罪预测的方法[J].江苏警官学院学报,2011,26(1):107-110.
[10] 王少军.时间序列预测的可重构计算研究[D].哈尔滨:哈尔滨工业大学, 2012.
[11] JIANG Q,BARRICARTE J J S.A crime rate forecast and decomposition method[J].International Journal of Crimino-logy and Sociological Theory,2011,4(2):648-656.
[12] ALWEE R,SHAMSUDDIN S M,SALLEHUDDIN R.Hybrid support vector regression and autoregressive integ-rated moving average models improved by particle swarm optimization for property crime rates forecasting with economic indicators[J].The Scientific World Journal,2013(1):951475.
[13] Yearly time series(1993-2012),provided by Eurostat(website)[DB/CD].https://datamarket.com/data/set/1c05/crimes-recorded-by-the-police#!ds=1c05!vwx=6:6fwj=3.6.a.11.19&display=l.
[14] 陈昌和,李清海,张衍国,等.炉排-循环床复合垃圾焚烧炉燃烧过程模型[J].清华大学学报(自然科学版),2008,48(5):832-835.
[15] Yang Xiaoguang.An empirical study on stock price based on ARIMA model[C].International Conference on LogisticsEngineering,Management and Computer Science,LEMCS,2014:273-276.