摘 要: 针对目前互联网“富信息化”现象,提出了基于机器学习的网络热点话题预测的思想。该思想通过总结能尽量准确描述热点话题的一组特征,得到每篇新闻各自的特征向量,并针对大量近期已知是否热门的随机新闻样本内容进行聚类处理。基于健壮精准的分类算法,利用支持向量机将向量映射到高维空间达到分类目的。在机器学习过程中,采用大量试验的方法修改并完善特征向量的组成、度量及权重,最终达到准确作出热点话题预测的目的。
关键词: 机器学习;网络媒体;热点话题;特征向量;分词;预测
互联网信息发布的便利性使得大众每天面对爆炸性增长的信息冲击,大量文本及文本信息在丰富大众生活的同时,也给用户带来了困扰。人们在获取固定信息的同时,往往希望获取特定领域的流行信息。为满足人们的这种需求,互联网新闻给出了相应的对策,如订阅热门话题、热门新闻上首页等措施。这些虽然在一定程度上解决了上述需求,但热门信息的排序仍然需要人工手动添加完成,从时间成本和人工成本上来说都十分浪费,并且用户也无法及时得到最新的热门资讯。
为此,本文提出了基于机器学习的网络热点话题预测方法,该方法可以有效地满足互联网用户的上述需求,并帮助新闻工作者有效减少工作量。利用机器学习带来的便利性,不仅可以快速分类出热门新闻话题,并且可以做到按热门排序,这样既能方便用户快速聚焦社会生活中的热门话题,同时也能帮助网页新闻工作者大量减少因为排序而带来的简单重复的工作量。
1 国内外发展现状
在国际上,热门话题的发掘工作层出不穷。彭菲菲等人针对信息冗余等现象提出了资源整合方法,对热点话题发现的关键技术做了一些改进[1];王巍等人针对Chen Kuan新闻报道侧重点的变化提出了基于多中心模型的热点话题发现算法[2];赖锦辉等人针对微博中孤立点较多的现象提出了消除孤立点的微博热点话题发现方法,消除孤立点再用CURE算法聚类,效果较好,但仅针对特征明显的微博进行研究[3];黄蕉平等人基于微博进行了负面新闻的早期预测研究工作,由于微博特有的转发量、点赞数等多维度为其研究成果在其他领域的应用带来了一定的局限性。除了以上学术界的相关工作研究,商业领域也存在许多热点话题资讯系统,比如常用的谷歌手机软件Google Currents2.0在最近的更新中就特别加入了Breaking Stories版块。总结以上研究成果,国内外仍没有很好的热点话题预测研究,有的侧重点在挖掘而不在预测,有的着眼于预测却不具有很好的扩展性。
本文提出一种实用性广、可预测性强的热点话题预测方法,总结出一组能尽量准确描述热点话题特征,得到每篇新闻各自的特征向量,然后基于这组特征对大量近期随机已知是否热门的样本新闻文本内容进行聚类处理,利用支持向量机对数据进行分类。由于机器学习是一个需要反复修改的过程,该方法的另一个研究重点就是在大量试验中修改并完善特征向量的组成、度量以及权重,最终希望能达到准确作出热点话题分类即预测的目的。
2 基于机器学习的热点话题预测方法
根据互联网数据挖掘技术和已有的新闻话题预测模型,得到图1所示的整体设计结构图。该结构图主要由数据挖掘器、特征提取器以及分类器3部分构成。
从第三步训练结果→支持→测试结果→反馈→特征提取器可以看出,该步骤是一个不断循环的过程,目的在于根据测试结果不断调整特征值,直到达到满意的效果。
由于步骤模块化,该结构设计可应对多种不同需求的话题预测,支持不同新闻网站、不同类别下新闻预测以及热点或非热点的新闻话题预测。
2.1 数据挖掘问题
本节以CNN国际新闻网站为例,阐述新闻挖掘提取过程。该新闻网站每天有上万条新闻,如何准确挖掘及提取4个关键属性是数据挖掘器需要解决的主要问题。设计思路是将网站上的无数条链接看做一个树状结构,CNN主页URL即为该树状结构的父节点。首先对每一层进行广度优先遍历,将获取到的新闻链接存入队列中,接着进行深度优先遍历,直到获取到数量足够多的新闻为止。该方法的优点是挖掘到的新闻不会重复。针对每一个新闻链接,首先利用httpclient客户端编程工具包提取网页源代码,通过HTML解析技术分别将新闻标题、作者、发布时间和正文4项要素提取出来,每提取一篇新闻即将4要素存入连接好的数据库中,该表的格式设计如表1所示。
2.2 特征提取问题
2.2.1 关键词模式匹配技术简介
模式(Schema)是指按照某种结构组织起来的多个元素的集合,模式匹配是指将两个模式作为输入,计算模式元素之间语义上的对应关系的过程[4]。本文中特征向量中的两个元素——知名度和敏感度,需要计算新闻文章中出现的名人数或敏感词的个数,为了实现这一计算,故选用模式匹配技术。由于热点话题的特点,在新闻话题预测中不需要找出具体匹配位置。
2.2.2 特征提取
(1)知名度。建立名人库[5],匹配新闻,若出现词库中人名则该特征记为1,否则记为0。
famous=0(初始值)(1)
(2)敏感度。建立敏感词词库(如explosion,death等),新闻标题及内容中出现的敏感词次数记为a,敏感词库总次数为b,定义敏感度为a/b(0-1)。
Sensitivity=a/b(2)
(3)文本长度。新闻正文长度过长或过短都会影响其热度,首先设定该长度阈值为500,该值根据实验测试结果不断调整。
Length=500(初始值)(3)
(4)时效性。当前时间与发表时间求差,差值x以24为阈值。
(5)生动性。统计一篇新闻的形容词个数m占整篇新闻词数n的比例(0~1),比例高者权重高,新闻话题热度更高。
Vivid=m/n(5)
2.3 分类器问题
2.3.1支持向量机技术简介
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它的原理是寻找一个最优的分类超平面,在保证精度的同时能够使平面两侧的空白做到最大化,所以理论上来说支持向量机可以实现线性数据的最优分类[6]。上文提到的特征向量就是一组可分的线性数据,故选用支持向量机技术。
2.3.2 机器学习技术简介
机器学习ML(Machine Learning)就是让机器来模拟人类的学习功能,是一门研究怎样用机器来模拟或实现人类学习活动的学科,要使计算机具有某种学习能力,就需要为其建立相应的学习系统。本文背景下的学习系统基本模型如图2所示。
其中,新闻信息为互联网中实时更新的新闻内容;关键词提取是将新闻内容等要素加工为知识的过程;知识库则是用来存储上一环节得到的知识;执行环节是利用知识库中的知识完成分类的过程,并且把信息反馈给学习环节(关键词提取),达到良性学习的目的。
2.3.3 分类器原理
将上节提取出的特征集拿出90%作为特征训练集放入分类器中进行分类学习,分类器得到分类标准后将剩下的10%特征集用于测试训练集,检测分类标准的准确度及可信性。将结果反馈到特征提取器中,并不断进行特征及权重的调整[7]。最终达到分类出热点新闻和非热点新闻的目的,即热点新闻话题预测的目的。
在当今信息爆炸的时代背景下,预测热点新闻话题的工作具有十分重要的实际意义。根据目前已有的大量相关工作,提出由数据挖掘器、特征提取器和分类器3部分组成的热点新闻话题预测模型,该模型通过机器学习的手段不断进行特征及权重的调整,从而达到预测热点话题的目的。这项工作的研究成果,不仅能引导用户去关注社会和生活中的焦点话题,同时也能帮助网络新闻工作者降低繁重重复的工作量,因此,它具有较为广泛的适用性,并能创造一定的经济效益和社会效益。
参考文献
[1] 彭菲菲.网络热点话题发现的关键技术研究[D].北京:中国矿业大学(北京),2012.
[2] 王巍,杨武,齐海凤.基于多中心模型的网络热点话题发现算法[J].南京理工大学学报(自然科学版),2009,33(4):422-426.
[3] 赖锦辉,梁松.一种消除孤立点的微博热点话题发现方法[J].计算机应用与软件,2014(1):105-137,139.
[4] RAHM E, BERNSTEIN P A. A survey of approaches to automatic schema matching[J]. The VLDB Journal, 2001, 10(4): 334-350.
[5] 马子恩.热点事件新闻语料库的研制及词汇研究[D].南京:南京师范大学,2012.
[6] LI S, ZHAO J, SONG Z, et al. Study on topic tracking system based on SVM[C]. 2011 Fourth International Sym-
posium on Knowledge Acquisition and Modeling(KAM), IEEE, 2011: 83-87.
[7] ZHENG Y, LU R. An adaptive topic tracking method based on feedback stories[C]. International Symposium on Information Technology in Medicine and Education, 2012(2):1021-1025.