文献标识码: A
文章编号: 0258-7998(2014)03-0137-03
随着移动互联网的飞速发展,移动广告市场取得了巨大飞跃,在美国排名前50位的广告主中,有80%的广告主计划在未来12~18个月的时间内增加其在移动广告领域的支出预算。因此如何建立起一个拥有更高用户参与度和更多流量的移动在线平台成为当前面临亟待解决的问题。
目前,智能手机、平板电脑等移动设备应用广泛,移动智能终端设备的使用量迅速上升。但是,很多移动广告的推送和表现形式生硬呆板,严重影响了用户的体验,阻碍了广告投放的效益。随着技术的发展,出现了更加丰富多样的展现形式,伴随着终端应用的社交化、多媒体化,广告主更加重视移动应用平台的广告投放。移动终端的反馈速度、互动社交、随时随地和精准的特点都是其他媒体无法比拟的,移动应用平台广告提供了个性化、多样化的营销广告模式。
本文着重研究基于位置和内容定向的广告投放技术,提出了一种新的基于内容定向和位置信息的广告投放模型[1],主要包括:(1)针对用户移动终端所在地理位置,判别与此地理位置相关的广告; (2)对于同一个广告,提供与此相关的多个地理位置,由此可为每个应用页面和广告都分配一个地理范围,提高地理信息匹配的准确性;(3)根据移动用户应用软件使用习惯和内容,研究基于内容定向的精准投放算法,可以有效提高匹配准确性。本文对上述方法进行研究,并设计出高效精准的移动应用平台广告投放系统, 能有效提高广告投放功能。
1 广告投放关键技术研究
广告投放的目的是根据广告主的需求对用户进行广告推送,定向广告是广告投放应用的一项关键技术。定向广告投放包括内容定向和行为定向,其目的就是将特定的广告投放给特定的人群。移动应用广告投放是指根据用户使用移动应用的习惯,确定广告的受众对象,对用户进行群体划分,并根据用户群体特点进行高效精准的广告投放。
本文结合内容定向和地理位置构建高效精准的移动应用平台广告投放系统。
1.1 基于贝叶斯技术的内容定向广告过滤算法
贝叶斯理论的含义是通过已知事件信息预测未知事件的发生概率[2]。将贝叶斯理论运用到广告投放的过滤算法中,假设某些字词经常出现在用户使用的应用软件中,这些文字作为已知文字,当广告中含有这些字词时,用户对此广告感兴趣的概率就较高。
(1)已知文字信息的贝叶斯数据创建
首先收集用户经常在移动应用平台浏览和使用的数据(非隐私数据),通过贝叶斯算法提取这些数据中的关键字样本,样本字符串包括文字或符号标志(如IP地址,域名等)。收集关键字和符号,建立已知文字信息样本数据库。
(2)贝叶斯概率数据库创建
根据用户浏览信息,对每个已知文字符号在用户最近浏览和使用的应用软件中出现的概率进行统计,并由贝叶斯公式计算出在广告文字中出现某些文字符号的概率,得出该广告为用户感兴趣广告的概率。例如:在1 000个采集样本中“裙子”出现了80次,而在其他不经常访问的页面中这个词出现了5次,则其对应的感兴趣的概率为0.888 9(备注:[80/1 000]/[5/1 000+80/1 000])。
(3)创建个性化的贝叶斯库
由于不同用户的偏好是不同的,例如,年轻的女性用户经常访问购物应用,关注社交应用的购物和时尚主题等,则“衣服”等关键词出现的几率很高,但是男性则多访问新闻、游戏等应用。如果不区分用户群,使用统一的关键词过滤,就会产生很多误判,影响广告投放的效率。因此,在贝叶斯算法过滤的基础上,建立贝叶斯已知文字信息数据库的同时,按照用户群体进行贝叶斯库的统计和创建。这样感兴趣广告的识别率将更高,同时也使得误判率变得很低。
贝叶斯过滤算法[3]的主要思想是在已知的大量用户信息中,包含一些特征串(token),这些特征串可以简单地理解为一个完整的单词,但实际上它不仅仅限于单词,它们出现在用户浏览信息中的频率特别高,而在一些其他应用中,另一些特征串出现的频率也很高。一般而言,对于同一个特征串出现在不同用户群体中的概率是不同的。因此,对于出现的每一个特征串,都会生成一个用户群体感兴趣指示性概率。这样就可以判断文本消息的整体“用户感兴趣概率”。
1.2贝叶斯方法过滤广告的基本原理
贝叶斯方法过滤广告的基本原理为:
(1)收集大量的不同用户群体的信息,建立用户感兴趣的广告集合和用户不感兴趣的广告集合。
(2)提取用户信息中的关键字和独立文字作为令牌串,并统计其出现次数(字频)。
(3)对每个集合设立一个哈希表,哈希表中存储令牌串与字频之间的映射关系。感兴趣集合的哈希表为hashtable_yes,不感兴趣的集合对应哈希表hashtable_no。
(4)令牌串概率P=(令牌串的字频)/(令牌串所在哈希表的长度),由此统计出每个哈希表中令牌串的出现比率。
(5)综合考虑感兴趣集合和不感兴趣集合的哈希表,当用户访问一个应用时,推断用户感兴趣广告的集合,并判断某个广告为用户感兴趣广告的概率。数学表达式为:
A事件为用户感兴趣广告;t1,t2,…,tn为令牌串,则P(A/ti)表示在广告中出现令牌串ti时,该广告为用户所感兴趣广告的概率。
(6)通过设立新的哈希表 hashtable_probability来存储TOKEN令牌串ti到P(A/ti)之间的映射关系。
(7)根据建立哈希表来预测用户对该新广告感兴趣的概率。
1.3 结合地理位置信息的内容定向广告投放算法
基于地理位置信息的广告投放算法,结合内容定向,通过获取用户所在的地理位置,计算广告与地理位置的相似度,通过获取用户所浏览信息中的地理位置,并通过文本处理来计算用户移动应用内容与广告的内容相似度。最后,结合地理相似度和广告相似度来计算用户应用信息与广告之间的最终相似度,并根据排序挑选出最匹配的应用信息与广告[4]。
算法处理步骤如下:
(1)根据用户移动终端所获得的地理位置,确定移动应用与地理位置的相关度。
(2)分别对移动应用(移动浏览器网页)等文本和广告文本做如下处理:
①通过贝叶斯技术选取用户移动应用内容的特征,确定用户浏览关注的应用信息关键词;
②对关键词做语义扩展,包括同义词与近义词;
③估算关键词的特征权重;
④抽取用户所在地理位置,扩展地理位置特征,分配地理范围;
⑤根据地理位置特征,调整地理位置与用户浏览内容主题的相关度。
(3)根据用户的地理位置和广告的地理范围,计算地理相似度。
(4)计算用户所浏览内容与广告内容的相似度。
(5)将内容相似度和地理相似度线性组合,计算广告与用户关注信息的最终相似度。
2 移动应用平台广告投放系统设计
2.1 需求分析
(1)功能性需求分析
①投放计划模块:该模块主要用于实时接收广告投放计划,并根据投放计划的变更情况,动态地对服务器中的广告订单项目进行增、删、改、暂停和启用,从而完成对广告投放的控制。
②广告投放模块:主要用于接收来自不同移动应用终端的广告请求,并对这些请求参数进行分析,根据贝叶斯理论查找用户感兴趣的广告并发送给移动终端,同时能够处理大量的终端请求。
③投放分析模块:该模块主要用于接收来自终端的广告投放报告,并将广告投放的详细数据信息存入日志库中。
④管理员可以将广告投放服务器注册到指定的管理中心及日志服务器上,从而使管理中心取得对该广告投放服务器的投放控制权,日志服务器可以从该广告投放服务器中获取对应的投放详细报告和日志。
⑤投放配置模块:为了实现热切换,广告投放模块需要能够动态获取相关配置文件。
(2)稳定性需求分析
①投放模块不能下发可能会导致移动应用终端异常的信息。
②数据同步过程中,要能够正常处理客户端的广告请求,并保证平滑地完成数据同步。
③当广告投放模块出现问题时,需要能够马上完成下线工作,并通过Email或短信通知管理人员。
④异常自动修补:通过收集相关地域定向信息,实现对请求异常的自动修补。
(3)可扩展性需求
①当业务流程出现变化时,系统应能通过简便方法实现业务节点的增删。
②投放配置模块应能灵活地实现对不同客户渠道的流程配置。
2.2 系统架构设计
在移动应用平台广告投放系统中,视图层包括输入和输出两方面信息:(1)输入:用户浏览移动应用和移动终端网页的信息;(2)输出:即系统通过搜集用户浏览的内容进行数据挖掘,确定与用户兴趣点最相关的精准广告投放,并通过视图层进行展示。
控制层是系统的核心,完成用户浏览数据搜集,以及用户特征模型的建立/更新、用户的分类及广告投放等功能。
底层模型层提供数据保存服务,主要包括用户数据表,广告表及信息表等库表和视图数据。系统架构设计如图1所示。
系统首先通过搜集移动客户端用户的浏览信息,并采用贝叶斯技术对用户浏览的内容进行分类,之后将用户特征信息保存到用户档案中。此时根据用户所属群体,判断用户的IP和其他信息,创建用户档案[5]。
根据用户特征,对用户和广告进行相似性分析,得到位置相似度和内容相似度,计算用户信息与广告的总体相似得分,最后选择最匹配的广告进行投放。系统处理流程如图2所示。
本文针对移动应用广告投放技术进行研究,着重研究了基于位置和内容定向的移动互联网广告投放技术,构建出高效精准的移动应用平台广告投放系统。从而为移动广告主带来更加丰厚的广告效益,从而产生更大的经济价值。
参考文献
[1] OGILVY D. Confessions of an advertising man[M]. New York:Southbank Publishing,2004.
[2] 戴浩.图像存储与传输系统在iPad上的设计与实现[J].微型机与应用,2013,32(19):25-27.
[3] 王利民.贝叶斯学习理论中若干问题的研究[D].吉林:吉林大学,2005.
[4] 黄秀莲. 我国手机广告发展现状及前景预测研究[D]. 厦门:厦门大学,2008.
[5] 郭泉成, 刘钰, 刘红,等.基于WAMP的远程医疗咨询系统的设计与实现[J]. 微型机与应用,2013,32(19):13-16.