摘 要: 语音应答业务利用率低、人力需求成本高是一大问题,对此,结合案例,运用CRISP-DW方法,采用Clementine工具对所得数据进行分析处理,得到IVR客户与地区分布、ARPU值和入网时长的关系;对IVR客户进行聚类分析,总结出其重要特点;提出相应对策,帮助提高IVR客户的满意度和利用率。建立一个C5.0决策树模型,分析预测客户是基于什么情况才进入IVR系统的。分析IVR客户与入网时长、地区、ARPU值之间的规则,有助于更准确地了解IVR客户并对其细分。
关键词: 语音应答业务;数据挖掘;CRISP-DM;客户细分
互动式语音应答业务IVR(Interactive Voice Response)是企业客户关系管理中一种有效的模式,它可以解决用户的绝大部分问题[1]。本文针对电信行业客户细分要求,将数据挖掘中的聚类分析、决策树方法应用于分析过程[2]。
1 电信呼叫中心客户细分体系
随着客户关系管理实践和理论的发展,在客户细分方法研究方面,研究者正寻找将客户聚类为独特的客户群的方法[3-4]。在国际学术界,学者们主要利用数据挖掘技术建立基于细分市场水平的客户分割模型。在国内,武汉大学郭蕴华等人提出了基于模糊聚类分析的客户分类算法。
2 数据挖掘与数据处理
2.1 数据挖掘在客户细分和呼叫中心中的应用
数据挖掘用来根据客户的预测行为定义客户细分群[5]。例如,将决策树的叶节点视为一个独立的客户细分群。
2.2 移动中心数据获取与预处理
研究数据来自于中国移动深圳分公司呼叫中心(10086)中的操作数据,操作数据的原数据项以及含义如表1所示。
本文选取动感地带2月份的数据进行分析研究,数据量为20多万条。进行数据挖掘[6]之前,对原始数据进行预处理和数据整理,具体步骤如下。
(1)合并具有相同变量的数据集。
(2)对呼入时间进行升序排序,当一个客户连续拨打10086时,可以更好地显示数据。
(3)去除重复数据。根据呼入时间排序,在同一相邻的时间段同时出现重复的呼叫号码视为重复数据。
(4)去除异常数据。去除异常数据的条件为:ARPU值>1 000或入网时长>80或ARPU值<0或入网时长<0或地区="沉默"。
(5)平衡数据集。
(6)离散化处理。采取“分箱”的方法划分区间,根据其取值情况分别对应到相应的区间,结果如图1所示。
入网时长为整型属性。对于整型属性采取“分箱”的方法进行区间划分,根据取值情况对应到相应的区间,结果如图2所示。
3 聚类分析在客户细分中的应用研究
以深圳移动动感地带的客户作为分析对象,对IVR客户进行聚类分析[7]。
3.1 深圳移动IVR客户基本情况分析
(1)地区分布与IVR客户的关系分析
经分析得到地区分布结果,95%以上拨打IVR的客户来自宝安、龙岗、福田、南山和罗湖5个地区。宝安地区拨打IVR的客户最多,占到总数据量的45.79%;盐田地区的客户拨打数最少,仅占总数据量的1.31%。
(2)ARPU值与IVR客户的关系分析
经分析得到ARPU值分布,99.9%的客户ARPU值小于600,而其余0.1%的客户ARPU值在600~1 608.690之间。因此可以看出,ARPU值越大的客户拨打IVR的数量越少,ARPU值小于200的客户拨打数量最多。拨打IVR的客户主要是ARPU值小于350的客户,ARPU值为100~150之间的客户拨打IVR的频率最高。
3.2 K-means算法与分析过程
移动IVR客户细分分析过程[5]如下:
(1)将客户划分为4类:
A类客户:ARPU值及入网时长都很高
B类客户:ARPU值高,入网时长较低
C类客户:ARPU值较低,入网时长高
D类客户:ARPU值和入网时长都较低
(2)选取“arpu”和“in_months”作为模型的输入。
(3)数据准备:
①将所有数据合并到一个记录表;
②根据呼入时间对数据进行排序;
③根据呼入号码去除重复数据;
④去除异常变量;
⑤选择IVR客户。
ARPU值、入网时长的数据大小差别非常大,具体统计值如图3所示。
(4)使用Clementine进行建模,选取“arpu”、“in_months”作为模型的输入。此处设定K=4。
(5)根据聚类结果,分为4类是较为理想的,结果如图4所示。
相关统计量结果如表2所示。
从聚类结果得到以下客户划分:
A类:cluster-2,7 487条记录,占13%
B类:cluster-3,5 190条记录,占9%
C类:cluster-4,15 370条记录,占26%
D类:cluster-1,30 797条记录,占52%
4 决策树C5.0算法的客户行为预测
(1)进行客户行为预测的商业理解。用户在拨打热线电话时,只会产生两种情况:一种是转入“人工接听”,另一种是进入“自动语音播放”。
(2)选取“area”、“arpu”、“in_months”,作为模型的输入,将 “是否转人工”作为输出变量。
(3)评估客户行为预测的模型。通过采用analysis节点对C5决策模型进行评估,得到的评估结果如图5所示,从图中的可信矩阵可以看出模型的正确率达到60.42%。
结果分析如下:
(1)更可能拨打IVR的客户包括:ARPU值在50~150,入网时长为5.5~8.5,居住在盐田、罗湖地区的客户;入网时长为0~2.5和59.5~62.5,居住在盐田、龙岗地区的客户;ARPU值在50~150,入网时长为8.5~11.5,居住在南山、宝安、盐田、罗湖的客户。
(2)更可能拨打人工座席的客户包括:ARPU值在50~150,入网时长为5.5~8.5,居住在南山、宝安地区的客户;入网时长为11.5~20.5,居住在盐田、龙岗地区的客户;入网时长为5.5~11.5,居住在盐田、龙岗地区的客户。
该领域的研究仍有许多待改进之处,特别是在模型分析上,利用数据挖掘的方法较少,本文针对这些不足,通过数据挖掘技术,达到提高客户关系管理可用性、实时性、智能性等目标。本文在国外已有研究的基础上,结合电信企业的实际需要,提出了电信客户细分数据挖掘模型,并根据客户细分结果为企业提供决策支持。在业务应用上,建立了一个聚类模型和一个定量化的决策树数据挖掘模型,提出了相应的改进措施,可为相关的决策者提供一定的参考。
参考文献
[1] 王扶东,马玉芳.基于数据挖掘的客户细分方法的研究[J].计算机工程与应用,2011,47(4):215-218.
[2] 易珺,路璐,曹东.改进的k-means算法在客户细分中的应用研究[J].微型机与应用,2005,24(12):52-53.
[3] 潘玲玲,张育平,徐涛.核DBSCAN算法在民航客户细分中的应用[J].计算机工程,2012,38(10):71-73.
[4] 徐翔斌,王佳强,涂欢,等.基于改进RFM模型的电子商务客户细分[J].计算机应用,2012,32(5):1440-1442.
[5] 张焕国,吕莎,李玮.C均值算法的电信客户细分研究[J].计算机仿真,2011,28(6):185-188.
[6] 廖宝魁,孙隽枫.基于MapReduce的增量数据挖掘研究[J].微型机与应用,2014,33(1):67-70.
[7] 徐新国,朱廷劭,康卫,等.基于数据挖掘的工业控制系统防危机制研究[J].电子技术应用,2012,38(5):87-90.