摘 要: 面对电子商务模式下电商对客户竞争的现状,针对传统的客户分类方法的不足,设计了一种基于FCM模糊聚类算法客户分类的并行算法。实验结果表明设计的方法能准确地对电商客户分类,在MATLAB集群下并行算法的运行取得了明显的并行效果。
关键词: 电子商务客户分类;FCM算法;MATLAB集群并行
市场经济的发展和网络技术的革新促使电子商务迅速普及。在竞争激烈的电子商务经济模式下,客户成为电商竞争的焦点。电商想要对客户进行分析需要将客户分类,找出优质客户、挖掘潜在客户才能制定出针对性的营销策略。电商客户分类是指根据客户的历史交易情况将客户群划分为不同的等级,从中找出共同的要素并对客户的消费需求及消费行为进行研究,制定并实施有效的销售策略。
传统的客户分类方法是基于经验或简单统计方法[1],依据电商客户历史交易数据对客户过去和现在价值进行分析,忽略了客户的潜在价值和未来价值。这两种方法分类主观性强,与分类标准的关联性大,分类效果不理想。FCM模糊聚类算法是多元统计算法中广泛应用于经济分析的算法,它是在聚类分析算法的基础上,增加“隶属度”,用数学的方法定量地确定每一个样本点与各个类别的亲疏关系,分类结果客观。此外,面对电商网站运营产生的海量历史交易数据,本文利用MATLAB集群可以发挥其适合执行数据密集型任务的优势,解决“数据大,计算难”的问题,高效地计算出聚类结果。
本文基于FCM模糊聚类算法设计了一个针对电商客户分类的方法,以电商网站凡客诚品的历史交易数据为例进行实验测试设计方法的有效性。同时在MATLAB集群中针对3个规模不同的数据进行并行计算实验,做并行化研究。实验结果表明FCM模糊聚类算法能够准确地将电子商务客户分类,利用MATLAB集群的多个节点并行计算数据,缩减了计算数据时间。
1 电子商务网站客户分类算法
1.1电子商务网站客户分类
电子商务客户分类是电商在收集和整理客户交易信息的基础上,按照客户交易记录把某一类的客户分到一个群体的过程,其原理如图1所示。
首先收集电子商务客户的原始交易记录数据,利用电子商务后台数据或者爬虫技术爬取。其次是数据预处理环节,要对收集的数据进行规约和清洗,删除其中没有用处的数据。最后通过FCM模糊聚类算法对输入数据进行聚类分析,获得聚类分析结果。电商可以针对不同消费群体制定指定的销售策略,实现稳定盈利。
1.2 FCM模糊聚类算法
K-means聚类分析算法是依据实验数据本身具备的定性或定量的特征来对数据进行分组归类的方法,方便了解数据集的内在结构,是数据挖掘的主要数据分析方法[2]。算法优势是操作简单、聚类速度快。算法存在的缺陷是容易陷入局部最优值,这样获得的聚类结果是局部最优解而不是全局最优解。由于K-means聚类分析算法的缺陷,用于电子商务客户分类的聚类效果不理想。
模糊聚类分析算法FCM(Fuzzy C-Means algorithm)是在K-means聚类分析算法的基础之上,增加“隶属度”,用数学方法定量地确定样本点与其他各个样本的亲疏关系,客观地划分样本集类型。能够客观地计算出每一个客户属于各类样本的概率,分析效果更加精确[3]。FCM模糊聚类算法步骤如下:
FCM模糊聚类分析算法的目标函数是:
表1是实验取得的隶属度矩阵表,结尾保留4位有效小数。列代表客户编号,行代表4个类别。对应的数值就是每一个客户属于每一类的概率。每一列概率数值相加之和为1,代表概率越大,属于那一类的可能性越大。
2.2 举例实验分析
本文先后分别对这100个客户数据进行聚类,分为3类、4类和5类。结果如图4和图5所示。
第一类潜在客户:该类消费群体关心价格,喜欢打折促销。流失倾向偏大,对网站信任度低。虽然具有一定的价值,但给企业带来的利润小。
第二类小客户:该群体主要购买饰品,企业从这类消费群体可以获得的利润较小。流失倾向偏小,应该通过营销方法使其成为一般客户。维持该类客户对电子商务的发展仍具有一定的意义。
第三类优质客户:群体主要购买服装,这类群体是企业可以从中获得利润最大的群体。该类群体购买优质产品,且购买的数量多,是企业的高端顾客。该网站的客户忠诚度高,在一定时间内购买的商品种类和交易数量多,是企业需要重点维护的对象。
第四类一般客户群体:主要购买服装,该类客户偏向于购买普通服装,电商的该类客户数量最多。对网站的产品持肯定态度,虽然没有为电商提供高利润,但是交易会稳定持续地进行,是企业稳定生存的基础。
3 MATLAB集群并行化
MATLAB是一套高性能的数值计算和可视化软件,集数值分析、矩阵运算、图形处理和信号处理于一体。MATLAB最大的优势在于它的强大的科学计算能力,专用工具箱具备全面的数学函数,能够执行数据复杂型任务和数据密集型任务[4]。
(1)实验环境:由3台PC机搭建的MATLAB集群。硬件配置:Intel(R)Core(TM)、i3CPU530@2.93 GHz(2CPUs),2 GB内存。软件配置:系统环境Windows XP、MATLAB(R2011b)。文件大小:规模大小为1 GB、2.2 GB、3 GB的3个数据表。
(2)实验结果及分析:本文采用数据分割的方式对FCM模糊聚类算法进行集群并行计算。实验分别在单节点与多节点环境下执行,首先在双节点环境下的运行时间小于单节点下运行的时间,并行效果明显。其次又分别在4个节点与6个节点下分别执行聚类计算,实验结果表明时间缩短的增量与集群节点数目成正比,随着集群节点的增加而增大。说明用MATLAB集群来处理本文的数据是有效的,发挥了MATLAB集群处理数据密集型任务的优势,体现了MATLAB集群的高性能。实验结果如表4所示。
通过对图6单节点与双节点环境下运行时间的对比,可以看出并行计算时间短于串行计算的时间,且随着数据规模的加大,时间缩短增量逐渐提高。图7显现了加速比的变化,不同规模大小数据的加速比均随着集群节点数目的增大而增大。由此可以证实,FCM模糊聚类算法在并行集群中应用于电子商务客户分类适用,能够取得良好的并行效果,输出结果时间缩短。充分说明了FCM模糊聚类算法并行化的可行性和MATLAB集群的高性能性。
电子商务处于蓬勃发展阶段,如何准确有效地对消费客户进行分类并制定针对性的营销策略是其盈利的关键。本文针对这一现实问题,选定多元统计分析中的FCM模糊聚类算法进行客户分类并做了并行化研究。实验结果表明,在MATLAB集群中运行并行后的FCM模糊聚类算法能够取得良好的并行效率,同时也验证了MATLAB集群在处理数据密集型任务的高效性。本文设计的方法可以应用于电子商务中,对电子商务客户分析方面有一定的实际意义。
参考文献
[1] 朱晶晶.电子商务网站分类体系理解的用户心智模型研究[D].南京:南京理工大学,2010.
[2] SELIM S Z. K-Means-type algorithms: A generalized convergence theorem and characterization of local optimality[J]. IEEE Transactions on Pattern Analysis and Machine Intelligce, 1984,6(1): 81-87.
[3] DUNN J C. A fuzzy relative of the IOSDATA process and its use in detecting compact well separated clusters[J].Cybemet.3,197:32-57.
[4] MathWorks. MATLAB Distributed Computing Server 5 System Administrator′s Guide[EB/OL]. http://www.mathworks.com/access/helpdesk/help/pdf_doc/mdce/mdce.pdf, 2010.
[5] 徐瑞,黄兆东,阎凤玉.MATLAB2007科学计算与工程分析[M].北京:科学出版社,2008.
[6] 瞿小宁.K均值聚类算法在商业银行客户分类中的应用[J].计算机仿真,2011,28(6):357-360.
[7] 李容.基于K均值聚类算法的图书商品推荐仿真系统[J].计算机仿真,2010,27(6):346-349.