文献标识码: A
DOI:10.16157/j.issn.0258-7998.2017.06.030
中文引用格式: 王帅,黄永峰,胡萍. 面向网络股评观点的垂直搜索引擎设计与实现[J].电子技术应用,2017,43(6):118-121.
英文引用格式: Wang Shuai,Huang Yongfeng,Hu Ping. Design and implementation of a vertical search engine for web stock review[J].Application of Electronic Technique,2017,43(6):118-121.
0 引言
我国自上世纪九十年代建立了上海证券交易所以来,经过了20多年的发展,中国股票A股市场的总市值已经超过了日本,位列全球第二[1]。随着股票市场对国家宏观经济以及投资者的影响越来越大,研究者们也在探索各种股市行情的分析方法,希望能够对股票市场的走势进行预测。网民对股市或某只股票的网络评论观点在很大程度上反应了股市行情,也影响着股市涨跌。因此,如何快速高效地挖掘到网民对股市态度和观点,对股市预测具有很大指导意义。
近年来随着互联网技术的飞速发展,越来越多学术界和金融从业者在研究各种股票预测方法。例如,文献[2]提出了智能神经网络(ANNs)对基于网络数据的股票进行分析预测方法;HUANG B等提出了通过分析谷歌搜索趋势,查找金融相关搜索术语能够提前预测股票市场变化[3]。许多研究都已成功证明,股民的股票操作行为决策很大程度上受到网络股民观点和感情因素的影响。因此,目前有许多研究成果是通过对用网络股票的情感极性分析,来实现对近期的相关股票指数、价格波动进行预测[4]。另外,文献[5]的研究表明,股票价格的走势与股民的情绪波动有着越来越密切的关系,学术界开始研究具体的情感倾向性分析方法来预测股市行情。2014年,Wang Gang等人基于SeekingAlpha以及StackTwits等平台,采取建立情感字典和机器学习分类的方式,得到了网络文本中的评论情绪,通过进一步情感分析,给出了具体的投资策略,最终获得了较为满意的收入结果[6]。另外,面向股市的垂直搜索引擎也在得到深入的研究和广泛的应用[7]。
综上所述,现有股市趋势分析研究成果都存在着一定的局限性。例如分析过程中没有融合网民自己的主观意见和知识。另外,现有的面向股评的垂直搜索引擎虽然能检索到股评内容信息,但不能直接给予网民观点信息,缺乏对股民应有的支撑[8]。因此,融合观点挖掘的股评全文搜索引擎技术是一项亟待研究的新方向。
本文通过重点研究垂直引擎的系统架构、主题爬虫和情感极性分析等相关技术来构建一套面向网络股评观点的垂直搜索引擎,重点解决搜索引擎的响应速度、主题数据的采集效率和情感极性的分析精准度等关键技术问题。本设计的垂直搜索引擎可以根据用户键入的股评查询关键词来检索相关网络股评内容,同时还能给出这些股评的观点,即股评的情感正负极性。
1 面向网络股评观点的垂直搜索引擎
1.1 垂直搜索引擎的体系结构设计
面向网络股评观点的垂直搜索引擎设计目标是实现网络股市新闻、股市论坛等网络股评文本信息的全文搜索,同时还能通过分析检索到文本的情感极性来进一步挖掘网民对股市或某只股票的观点与态度。因此,面向网络股评观点的垂直搜索引擎的主要功能应该包括如下几个方面:(1)对特定的金融论坛网站数据采集、清洗解析、结构化的信息抽取;(2)情感正负观点极性分类与观点呈现;(3)对分类后数据生成倒排序文件及保存管理;(4)支撑用户对股评的全文检索以及相关属性统计查询等。
因此,根据上述目标和功能的设计,本文提出了一种基于Hadoop平台的面向网络股评观点的垂直搜索引擎体系结构,如图1所示。
从图1可以看出,本文设计的垂直搜引擎与现有的全文搜索引擎(例如Google和百度等)相比较,具有如下特点:
(1)针对指定金融网站进行精准的主题数据采集与解析,并抽取一些结构化信息,为某些属性的统计分析提供支撑。
(2)能对采集网络文本(例如股票评论、微博等)进行正负情感极性的计算与分析,从而实现网民的观点挖掘,同时支撑正负观点等属性的统计分析。
(3)融合情感极性分类和关键词索引等功能,综合生成检索倒排序文件。存储在Hadoop大数据平台的HDFS和HBase中。
(4)搜索引擎能提供基于关键词、情感极性和属性统计等多种检索条件及其组合表达式的查询。
另外,本文构建的垂直搜索引擎是基于开源Apache 的Lucene代码改进来实现。在Lucene开源的基础上,增加的核心模块有情感极性分类、面向特定网站的主题数据采集和属性统计等,并对倒排序生成和文件检索、查询及呈现等模块进行功能扩展和性能优化。下面重点分析面向股评主题的定点收割爬虫和多粒度模糊计算情感极性分析模块的设计方法。
1.2 面向股评的主题数据定点收割爬虫的设计
目前,对网络开源的数据采集都是采用通用爬虫技术,但在一些特定领域,只需要采集专门主题数据,此时通用爬虫技术就不再适应了。因为在Web数据呈爆炸性增长情况下,通用爬虫通常会采集到大量的不相关信息,从而极大地浪费硬件和网络资源。
为此,在现有主题爬虫技术的基础上,提出了一种面向指定网站的定点收割爬虫技术。该技术采用了目录搜索技术和主题爬虫技术相结合思想。通过用户来定制一些指定网站或网站中某些频道的目录信息,再根据网站信息更新的频率,设定定时器、周期性爬虫这些网站或频道中的数据,并进行解析和主题分析,为下一层爬取奠定基础。本文设计的面向股评网站的定时收割爬虫器的组成结构如图2所示。在该结构中,用户可以对需要的文本主题进行定义,主题描述主要是采用关键词和LDA模型。用户还可以对需要爬取的网站或网站频道进行目录定制。定时收割器能是根据这些网站的信息更新频率来设置爬取的时间。超文本分类器是根据目录列表和主题描述来进行文本分类和内容过滤,获得用户需要的文本数据。
定点收割爬虫器的工作过程的算法设计如图3所示。其中,最核心的问题是如何选择爬虫收割网页的URL列表。在分析URL时,需要结合主题相似性比较方法来确定哪些网页是与主题相关的,并进行相似性程度的排序,以此来支撑URL优先级列表构建。
1.3 面向股评观点挖掘的情感极性分类器
网络评论的观点挖掘主要是采用网络文本情感极性的分类方法来实现,目前网络评论情感极性分类方法主要存在如下问题:(1)在计算评论的情感极性时,都只引入了情感词或短语的情感极性信息,忽略了句子结构和句间关系信息。事实上,句子结构和句间关系信息对情感极性分类具有较大影响;(2)当前的情感极性分类建模主要是采用确定性数值模型,忽略了情感词语义的模糊性。
针对上述存在的2个方面问题,本文提出了一种多粒度及模糊计算的无监督股评极性分类方法。该方法是针对情感词语义对文本上下文的依赖问题而分析不同层次上情感特征信息,然后结合模糊集合理论,来构建一种文本情感极性的分析计算模型,以此来提高股评情感极性的分类精度。其核心思想是:在股评情感极性预分类阶段,同时考虑情感词、情感短语、句子类型和句间关系对情感词情感极性的影响,这就是所谓“多粒度”。同时,还将现有情感极性确定性数值计算改进为模糊集合计算。因此,多粒度及模糊计算的情感极性分析模型是通过综合考虑词、短语和句子等不同粒度的情感信息,综合分析股评的情感极性及其强度。在得到股评情感极性和强度后,采用模糊集合理论对股评的情感极性进行预分类,再结合自学习机制,构建一套股评情感极性无监督的在线分类器。
面向股评的多粒度及模糊计算情感极性分类器的整体架构如图4所示。框架主要由3部分组成:(1)无监督情感极性分类器的情感知识库,包括:情感词典(QWSL)和情感语素字典(KSMD)等;(2)股评情感强度的多粒度计算组件。组件采将股评划分3种不同粒度的语言单位:句子、短语和词,并分别计算3种粒度的情感强度,然后综合分析整个股评的情感强度。(3)模糊分类器。根据最大隶属度原则来构造模糊分类函数,并采用自学习机制的设计分类器的相关参数。
上述组成部分中,最重要的是模糊分类器。其基本思路阐述如下:以股评集合R={ri}中评论ri的情感强度si(ri)为基础,通过定义股评集合R={ri}的正向情感类别为模糊集P。
根据模糊成员函数定义和最大隶属度原则,可将式(2)和式(4)正负成员函数组合为一个模糊集分类函数,如式(5)所示:
其中,μp(ri)表示模糊集P的正向成员函数;参数α和β为调节参数,可以统一为参数k来表示,k=(α+β)/2。
2 实验测试与结果分析
实验目标是验证所提出的垂直搜索引擎中多粒度模糊情感极性分类方法的效果。
本文采取了3类实验测试数据集,具体包括:网站股评、论坛股评和微博股评。每个数据集都包含正面评价和负面评论。3个数据集的统计数据见表1。
对于多粒度模糊情感极性分类方法,准确度(P)、召回率(R)、F1和精度(AC)是四类主要的性能指标,即检验该分类方法的查全率和查准率。本文在选择基于情感词典的网络评论极性分类(MBSL)和基于情感词典和模糊集的网络评论极性分类(MBSLFS)两种典型方法的基础上,提出了基于多粒度模糊计算模型的网络评论极性分类方法(MBMGC)。根据模糊分类器参数设置策略不同,分别采用人工标注数据集的方法(MBMGC1)和初始伪标注数据集的方法(MBMGC1)。
表2实验结果表明:在3个数据集上,MBMGC的4个性能指标值均高于MBSL和MBSLFS,MBSLFS比MBSL提升了约8.62%分类精度,表明基于模糊集合的计算方法比基于情感词典的确定数值计算方法更有效。而MBMGC1和MBMGC2比MBSLFS分别平均提升了约4.486%和3.677%分类精度,进一步表明基于多粒度的模糊集合方法比基于单一情感词典的模糊集方法对情感极性分类更有效。
3 结语
本文根据股市信息搜索的需求,在主流全文搜索的基础上,设计与实现了一种面向股评观点的垂直搜索引擎。该引擎在对股市网络评论进行全文检索的同时,还能完成情感极性分类检索。本文的贡献点表现3个方面:(1)提出了一种面向股评观点的垂直搜索引擎框架,能支持股评信息的高效全文检索和观点分析;(2)设计了一种面向网络股评信息采集的定点收割爬虫,能保证股评主题数据采集的精准性和召回率;(3)建立了一种多粒度及模糊计算的股评情感极性无监督的分类方法,解决了股评极性的在线分类问题。实验结果证明,本文实现的面向股评观点垂直搜索引擎能满足实际应用要求。下一步研究重点为改进查询接口方式和在更大数据量下的性能优化,进一步提高查询响应速度。
参考文献
[1] BROWN E D.Will twitter make you a better investor?A look at sentiment, user reputation and their effect on the stock market[C].In Proc.of 2012 SAIS,2012.
[2] JOHAN B,Mao Huina,Zeng Xiaojun.Twitter mood predicts the stock market[J].Journal of Computational Science,2011,2(1):1-8.
[3] HUANG B,HEILMAN T D.A web-based kernel function for measuring the similarity of short text snippets[C].Proceedings of the 16th International Conference on World Wide Web.AcM,2007:377-386.
[4] WANG B,HUANG Y,WU X,et al.A fuzzy computing model for identifying polarity of Chinese sentiment words[C].Computational Intelligence & Neuroscience,2015:1-13.
[5] MOAT H S,CURME C,AVAKIAN A,et al.Quantifying Wikipedia usage patterns before stock market moves[J].Social Science Electronic Publishing,2013,3(5):926-930.
[6] Wang Gang,Wang Tianyi,Wang Bolun,et al.Crowds on wall street:Extracting value from clooaborative investing platforms[C].In Progress in CSCW,2015.
[7] CHOUDHURY M M,SUNDARAM H,JOHN A.Can blog communication dynamics be correlated with stock market activity?[C].In Proc.of HyperText,2008:55-60.
[8] WANG B,MIN Y,HUANG Y,et al.Review rating prediction based on the content and weighting strong social relation of reviewers[C].Proceedings of the 2013 International Workshop on Mining Unstructured Big Data Using Natural Language Processing.ACM,2013:23-30.
作者信息:
王 帅,黄永峰,胡 萍
(清华大学 电子工程系 下一代网络及应用技术研究室,北京100084)