文献标识码: A
DOI:10.16157/j.issn.0258-7998.2015.11.039
中文引用格式: 马力,王芸,杨琳. 基于MoodCast模型的用户行为分析与预测[J].电子技术应用,2015,41(11):140-143.
英文引用格式: Ma Li,Wang Yun,Yang Lin. Analysis and prediction of user behavior based on MoodCast model[J].Application of Electronic Technique,2015,41(11):140-143.
0 引言
情感是人类对客观外界事物态度的体验,人们在社交网络中的行为直接反映其在真实世界中的活动和情感。这促使传统意义上的主观心理学概念的情感在网络空间和人类社会中显现出一致性、通用性和重要性,成为影响人类个体、社会及网络社会智能活动的重要因素。
目前大部分系统只是支持网络宏观分析(如网络结构分析和可视化分析),而对网络微观分析(如个体用户行为分析、影响力分析等)却鲜有研究。情感动态分析目前主要研究集中在心理学和社会学领域,重点关注人类情感的动因,包括某种具体的情感是如何演化形成、情感随时间的动态变化、或者朋友们之间的情感如何相互影响[3]。文献[6]研究了幸福感在社交网络中的动态传播,揭示了在社交网络中,幸福感最多通过三层联系在人群中进行传播。文献[7]在此基础上对孤独感的动因进行了更进一步的研究,指出在社交网络中孤独感有着和幸福感相似的传播模式。但这些工作中的绝大部分只定性地在一定规模的社交网络数据上进行统计分析及测试验证,缺乏对社交网络情感及其动态演变的定量计算。为此,本文将用户情感传播因素应用到社交网络中,研究情感主观范畴与网络行为有机相融合的计算建模问题,为准确度量人类的情感提供新的技术途径。
1 基于MoodCast模型的情感分析与预测
动态因子图情感预测模型(Emotion Prediction via Dynamic Continuous Factor Graph Model,MoodCast)是由清华大学教授唐杰提出,主要用于定量计算社交网络中用户的情感以及分析预测其行为分析。MoodCast是结合用户的动态状态信息(如地点、活动和属性)和用户的社会关系对其情感的影响而建立的模型。MoodCast中将主体情绪的变化建模成动态连续网络Gt的函数:Gt=(V,Et,Xt,Yt)。其中V是用户的集合,假设有n个用户,e∈Et是指在t时刻用户vi和用户vj创建的连接。Xt是社交网络上所有用户在连续时间属性变化的集合,Yt是在社交网络上所有用户情感状态改变的集合。假设用户所处环境不变,即Xt=X[3],则用户的情绪仅根据时间关联因子函数和社会关联因子函数而变化,所以用户的情绪可以表述为式(1):
其中,h(Gt)为时间关联因子函数,它表示用户的最近过去时刻t′情感状态yt′对时刻t的情感状态yt的影响程度。由于时间影响具有连续性,即t时刻前的m个时刻为t-1,t-2,…,t-m,根据MoodCast模型,之前状态的时隔越短对情绪预测的影响越深刻,因此预测情感的变量主要是最近的过去状态,归一化过去各时间的影响总和,如式(2)所示:
g(Gt)为社会关联因子函数,它表示用户vj在t′时刻的情感y对用户vi在t时刻情感的影响。Fowle、Whitfield和Christakis研究发现一个社会网络中用户传播幸福三度分离,即三度之内用户比之外感到幸福的可能性更大,用户的情绪影响只在两阶内比较显著,且影响因子的系数分别为18%、11%[6]。研究中忽略主体之间联系的密切度,二值化为一阶社交网络用户间联系矩阵E(dij),
dij=0 i和j没有联系1 i和j有联系
矩阵E(dij)平方后得二阶社交网络用户间联系矩阵E2(eij),
eij=0 i和j没有二阶联系1 i和j有二阶联系(是“朋友的朋友”)
社会关系方面研究社交网络中其他用户vj对用户vi的影响,而主对角线为自身对自身的影响,所以联系矩阵的主对角线为0。社交网络用户有多个联系人,我们对En×n进行列标准化如式(3)所示:
假设用户情绪是自身情绪在时间上的延续及社交关系对用户情绪影响的和,则形式上用户情感状态的预测函数表示为:f(V,Et+1,Xt+1|Gt)→Yt+1
2 基于情感传播的用户广告点击行为预测模型
由于广告是短文本,特征向量表示会异常稀疏,广告文本去除停用词后剩余更少,所以通过经验点击率将剩余文本中的关键词作为广告标签。
设词t在M条广告中出现的次数为N(t),则t平均在每条广告中出现N(t)|M次。设t在一条广告a中出现的次数为n(t,a),则t在广告a的重要性如式(8):
g(t,a)>1,与N(t)呈负相关,与n(t,a)呈正相关(即词t在广告a中出现次数越多越重要)。广告a中的所有词为ti(i=1,2,…,n),让ti按其比重g(t,a)排序,得到词序列t(ki∈{1,2,…,n})
筛选后的词序列t(ki∈{1,2,…,i})就是广告a的标签,因为求词比重和词序列均与M无关,所以可将M设为常整数。
P(1|t1),P(1|t2),…,P(1|tn)是估算出现的标签t1,t2,…,tn的广告点击率。根据贝叶斯公式,对任意词t出现时,广告被点击的概率是:
式(10)中,表示广告被点击。
如式(12),(t1 t2…tn)的取值可大于等式后半部分,所以互作用不独立。正如我们日常购物,影响因素众多,除去主导因素,剩余因素的影响比较小,而“折扣”、“清仓”标签的加强效果也不是累加的。所以添加修正因子函数关于i的减函数(tK,ti),得:
通过样本针对每个标签t获得?姿(t,i),再拟合i,用经验概率估算对所有标签t1,t2,t3,…生成矩阵M?琢,其中:
我们也可以设定阈值忽略点击率很小的标签,最终可以估算?仔1(t1 t2…tn)=P(?棕1|t1 t2…tn)。
本文基于情感传播机制的用户行为分析主要是通过在每一次会话中用户点击广告的概率,预测一次会话,主要受用户的查询和广告特征的影响。用户的查询直接决定了用户有没有点击广告的意愿,广告特征在用户查看广告条件下,影响广告的点击率。设s代表一次会话的特征向量,令查询中的关键字为向量q,广告特征(标签)为l,则s=(q,l)。设用户点击广告为1,不点击广告为?棕0,则令:
其中,用最小二乘法拟合,因为q,l在点击率中所占权重不确定性会使整个s估计联合概率产生较大误差。生活中我们的行为受情绪的影响,所以在广告点击模型中加入情绪因素:
其中yt为情绪预测模型,如式(13)所示。
本文采用指数形式加入情绪因素是因为情绪对点击率的影响是整体的,会贯穿不同点击率变化的过程。用系数来解决影响程度的不确定性。
3 仿真与验证
用户情感服从X~N(0,1)正态分布,设0.5为情感“中立”,大于0.5为情感“积极”,情感值越大越积极,小于0.5为情感“消极”,情感值越低越低落。同时引用正态分布的期望与方差来观察情绪变化与波动程度对预测情绪的影响。
实验主要验证联系人情感变化与波动程度对用户未来情感的影响程度。首先,设定不同情感期望值来分析联系人情感状态对用户情感的影响。图1~图3显示不同情感状态的用户受联系人情感变化的影响,所有曲线均趋于平缓。图4综合处于不同水平的自身情绪的实验结果曲线看出联系人的情绪变化有可能明显改变用户情绪。图5通过改变不同水平情绪的联系人的比重来观察对自身情绪的影响程度,看出当某水平情绪的联系人所占比重较大时,可明显改变自身的情绪水平。图6设定不同情绪波动程度的联系人来分析对自身情绪波动的影响,发现当联系人情绪方差较小时,自身情绪波动稳定,当联系人情绪方差大于研究对象时,自身情绪波动变大。
上图显示该情感预测模型的有效性,而联系人的情绪明显影响自身的行为,本文在广告点击模型中加入情绪元素的影响:
假设影响水平参数a=1,a的取值为正数即可,把联系人行为与自身之前行为设为正态变量,变量的期望值与联系人情绪水平变化一致,因为联系人行为明显影响自身情绪预测值,上述实验已证,考虑点击率受多种独立因素影响,设变量服从正态分布。
图7、图8表明了联系人的不同情绪变化对用户点击率预测的影响,三条线的斜率都是正的,说明了社交网络用户情感对点击率呈现正向影响。
4 结束语
本文将用户情感的预测模型引入到用户广告点击行为预测中,有效证明了用户的情绪受到社会关联因子的影响,而影响程度与社会关联因子的取值有关,并且情感对用户行为有正向作用。但对用户情感的细微变化研究不够,未来拟对社交网络中用户情感传播的微观机理进行深入研究。
参考文献
[1] JACKSON P,MOULINIER I.Natural language processing foronline applications:text retrieval,extraction and categoriza-tion[M].John Benjamins Publishing Company,2007.
[2] FELDMAN R,SANGER J.The text mining handbook[M].Cambridge University Press.2006.
[3] 唐杰,贾珈,杨洋,等.社交网络数据的情感计算[J].中国计算机学会通讯,2014,10(5):18-24.
[4] BERRY M,CASTELLANOS M.Survey of text mining II:clustering,classification and retrieval[J].Springer,2007.
[5] WHITFIELD J.The Secret of Happiness:Grinning on the Internet[J].Nature,2008.
[6] FOWLER J H,CHRISTAKIS N A.Dynamic spread of happiness in a large social network:longitudinal analysis over 20 years in the Framingham heart study[J].British Medical Journal,2008.
[7] CACIOPPO J T,FOWLER J H,CHRISTAKIS N A.Alone in the crowd:the structure and spread of loneliness in a large social network[J].Journal of Personality and Social Psychology,2009.
[8] Qi Yudong,Qu Ning,Xie Xiaofang.Web Information Systems and Mining(WISM).IEEE.2010.
[9] BOLLEN J,MAO H,ZENG X J.Twitter mood predicts the stock market.Computational Science,2011,2(1):1-8.
[10] GOYAL K A,SADASIVAM A.A critical analysis of rational& emotional approaches in car selling[J].Int’l J.Business Research and Management,2010,1(2):59-63.
[11] 杨琳.基于社交网络的用户行为分析及预测[D].西安:西安邮电大学,2013.