摘 要: 研究了一种大数据的应用程序框架,通过使用拓扑数据结构、共生技术分析和马尔科夫链理论来分析消费者的购买行为。首先将与消费者相关的数据转换成一种拓扑数据结构;然后使用拓扑关系、一种共生矩阵对消费者行为进行分析,推断出马尔柯夫链模型。仿真结果证实了该理论框架的有效性。
关键词: 大数据;消费者行为;拓扑数据结构;马尔科夫链
0 引言
随着云技术的应用和普及,利用“数据”对消费者细分变得更为容易,在此“数据”之下形成的“精准”传播正日益成为厂商的得力助手。大数据在经济分析、灾害预报、产品和服务跟踪、消费行为洞察甚至在了解股市走向等方面大有用武之地,在发达国家已经开始普及应用,在中国也得到越来越多的运用。
在消费领域,通过数以百万计的网络传感器和视频监控系统,人们能搜索到关于消费者和供应商的大量数据[1];各种媒体和社交网络平台中关于消费者的数据更是呈现指数式增长;用户在各种社交网络平台中所生成的未经编辑的信息,包括结构化和非结构化的数据,让人眼花缭乱。把这些海量数据统一称作大数据。一般情况下,大数据具有批量、多品种、快速度三种特性[2-3]。
另一方面,消费者行为分析是对消费者、产品商、运营商之间对诸如购买、节约、商标选择等方面的关注[4]。此外,如今的消费者称号不再是指过去单一的消费者行为,对他们的定义不再仅是买家,更是一种会引导电商零售企业营销方式变迁的模式。为了分析消费者行为,获取更多的信息是有必要的。在这个方面,对数据驱动决策作出,处理大数据已经成为了中心角色[5]。在大数据平台中所搜集的数据的性质是各不相同的,为了分析这些数据,仅数据的数量和性质而言就是一个艰巨的挑战[6]。本文用图1所示的框架结构,通过数学拓扑以及与马尔科夫链相结合的共生分析理论来分析这些海量数据以及如何能够获取有用的信息。
1 消费者行为分析的大数据框架
应用于消费者行为分析的大数据框架图由三个功能层组成,分别是数据组织层、分析建模层、预测推理层[7-8]。在数据组织层,收集到的数据在一个动力系统中被组织,以至于该数据能够被看作是一个时间序列。具体而言,假设随机变量分别为:
Xt:在时间t时的数据量。
Yt:出现在时间间隔为[t,t+1]的新数据。
Zt:出现在时间间隔为[t,t+1]的劣化数据。
该数据流可以在一个随机方程中建模为:
可以通过线性回归马尔科夫链在式(2)中获得Xt:
E[Yt+1|Yt]=(1-ρ)E(Y)+ρYt(2)
通过式(1)乘以Yt+1,再取其期望,同时使t→∞,这样能够获得式(3):
(1-ρ)E(XY)=(1-ρ)E(X)E(Y)+ρE(Y2)-ρE(Y)(3)
在式(1)中代入E(XY)的值,通过式(4)获得大数据的平均量:
对于代表当前特别关注的变量Xt,通过方程(4)将会得出时间序列数据。经产生的时间序列数据,构造出拓扑数据结构,这样大数据能够被存储为所构造的拓扑数据而不失其一般性,该优势是对大存储器的需求显著减少。同时,重要的信息能够通过使用离散集而获得,可以利用拓扑结构对该种消费行为进行研究。拓扑数据结构的基本概念是认识其数据的形状或模式,用于发现数据,识别其有意义的数据子集,这样的拓扑数据结构由满足包含、相交和封闭性的采样数据的子集集合而成。以下三种关键性的拓扑性质使得从大数据中可能提取出具有一定价值的数据:(1)无坐标性;(2)提取不同形状下的一种客体模式的能力;(3)不失其重要特性的压缩形状。
适用于上述三种特性的共生矩阵被处于分析建模层中的数据结构所建立。按行归一化的共生矩阵、马尔科夫转移概率都能被估计,同时形成了一步转移概率矩阵P。然后平稳分布π以及随时间变化分布的Pt能够通过(5)式获得。最后这些可能性在预测推理层被用于获取所需的特定信息。
π=πPPt+1=Pt·P(5)
2 实验结果
为了说明该架构,对合成的消费者购买行为数据进行模拟。把购买消费品的时间序列数据收集起来并在表1中显示出来,该数据包含了4种消费品和10个时间点。包含消费品的整个数据集是Xt={a,b,c,d},拓扑T被定义为Xt的子集集合,这样T包含一个空集和整个集,T中的两个集合并一定被包含在T中,且T中任何两个集合的交叉点也必须被包含在T中,这样包含的拓扑关系被用于建立处于拓扑T中数据集之间的共生矩阵。相应的共生矩阵如表2所示。通过共生矩阵行归一化能够得到一步转移概率矩阵P。当t=2,3,4,…时,通过计算Pt能够获得t步转移概率。在一般情况下,平衡状态在t的一个有限值内达到。因此,当t=1,2,3,…时,通过绘制相应的t步概率获得该种趋势图。最后,必要的信息能够通过图2所示的消费者趋势图推导出。在图2中,水平线表示时间点,垂直线表示购买成对商品的模式。其中大数据分析最重要的方面之一便是通过解码图2中被编码的定量信息和定性信息以显示其结构和模式。通过图2的解释线图能够观察到,在其他配对线趋势图之间,配对线趋势图(a,b)是最可能的结合,其次是配对线趋势图(a,d)。接下来发现的是包括物品b的线是处于顶部的一些线,这意味着物品b是最受欢迎的物品,这样的结果与原始数据一致。结合了物品d但是没有包括物品b的线是最低的,这解释为物品d是最不受欢迎的。
3 结论
本文结合消费者行为的非结构化数据,呈现了一种大数据应用程序框架。这是大数据分析的早期阶段,在消费领域,通过使用真实的生活数据,分析消费品的购买情况,在网络平台上将会产生大量的数据源,通过这些数据精准了解消费者心理对企业的功能和作用,特别是对营销来说更具有特别重大和实际的意义。
参考文献
[1] 吴响,张立,赵强,等.基于体域网的远程健康监护系统设计[J].电子技术应用,2014,40(3):19-21.
[2] 黄升民,杨雪睿.碎片化背景下消费行为的新变化与发展趋势[J].广告大观(理论版),2006(2):4-9.
[3] 窦炳琳,李澍淞,张世永.基于结构的社会网络分析[J].计算机学报,2012,35(4):99-111.
[4] 大数据成为信息科技新关注点[J].硅谷,2012(13):I0012.
[5] 杨华磊.高频数据对传统经济学研究范式的冲击[EB/OL].[2013-01-27].blog.sciencenet.cn/blog-456786-656901.html.
[6] 涂子沛.大数据[M].桂林:广西师范大学出版社,2012.
[7] Zhang Yihua, BLANTON M. Efficient dynamic provable possession of remote data via update trees[J]. Rearch in Computer Security(ESORICS′09), 2012(3):42-45.
[8] Lin Jun, Yang Guangyu. Analyzing customer behavior Predicting-what happens next[DB]. Publisher: Across Technology, 2010(2):53-56.