《电子技术应用》
您所在的位置:首页 > 通信与网络 > 设计应用 > 基于网络论坛文本挖掘的笔记本电脑满意度研究
基于网络论坛文本挖掘的笔记本电脑满意度研究
2014年微型机与应用第18期
李艳红,程 翔
上海财经大学 信息管理与工程学院,上海 200433
摘要: 不同于以往的满意度模型中头脑风暴和问卷调研等手段建立指标体系的思路,以大量掩埋和分布在各个网络平台中的评论信息为基础,通过文本挖掘手段分析消费者对笔记本电脑重点关注的角度和内容,确立评价指标体系;基于Formell模型,使用多元回归方法,建立了笔记本电脑满意度模型。该研究过程基于消费者的真实感受,提炼出了消费者对笔记本电脑最为关注的优势属性和缺陷属性,帮助产品制造商全面、准确地了解消费者的需求和心理期望。同时,满意度模型有助于消费者和制造商对笔记本电脑的满意度进行综合测算、比较和选择。
Abstract:
Key words :

  摘  要: 不同于以往的满意度模型中头脑风暴和问卷调研等手段建立指标体系的思路,以大量掩埋和分布在各个网络平台中的评论信息为基础,通过文本挖掘手段分析消费者对笔记本电脑重点关注的角度和内容,确立评价指标体系;基于Formell模型,使用多元回归方法,建立了笔记本电脑满意度模型。该研究过程基于消费者的真实感受,提炼出了消费者对笔记本电脑最为关注的优势属性和缺陷属性,帮助产品制造商全面、准确地了解消费者的需求和心理期望。同时,满意度模型有助于消费者和制造商对笔记本电脑的满意度进行综合测算、比较和选择。

  关键词网络论坛;文本挖掘;笔记本电脑;满意度

0 引言

  当前,互联网网站为数众多的产品评论以及打分为消费者相互交流提供了平台。这些评价内容丰富,包含以往消费者对该产品的情感倾向,它们的存在将影响潜在买家所做出的购买决策。

  在不受以往头脑风暴和传统调查问卷结构限制的环境下,从自身出发的论坛消费者评价有更强的主动性和真实性,能够全面深入地反映消费者的真实感受。但数量众多的评论与潜在消费者有限的时间、精力存在矛盾,容易出现一叶障目的问题。这些信息运用文本挖掘技术进行处理和量化之后能够更清晰地反映出消费者对某产品的满意程度和感情倾向。

  本文以笔记本电脑为对象,尝试基于网络论坛文本挖掘的满意度模型建立思路。

1 相关理论和研究

  1.1 产品评论挖掘

  产品评论挖掘通过对结果进行分析,用文本挖掘的方法将整理出的结果呈现给用户和商家。短短几年间,无论是在英文还是在中文领域,产品评论挖掘技术都取得了很大的进步。通过用户随意发表一段产品评论来表达对产品使用之后的看法,商家和购买者都可以轻易地从这些评论中获取各自所需要的信息。

  通常情况下,对产品评论挖掘的目的主要有两点:一是面向该产品的潜在购买者,使他们能够快速、准确、全面、及时地了解已经购买该产品的消费者的真实体验感受,减少产品信息搜索成本;二是面向产品的制造商,帮助其能够全面、准确地了解消费者的需求和心理期望,使他们能够有针对性地改进产品并且设计新产品。

  1.2 Fomell模型

  1989年,美国密歇根大学质量研究中心的Fomell教授总结了理论研究的成果,提出了把顾客期望、购买过程中各种属性影响等多方面因素组成了一个计量经济学逻辑模型,即Fomell逻辑模型。该模型是迄今为止最成熟和运用最广泛的顾客满意度指数理论。

  1.3 相关研究现状

  在国外,2002年是评论挖掘开始兴起的一年,TURNEY P[1]首先提出将语义倾向性应用在非监督的评论分类上,并设计了一个简单的算法,即将评论分为推荐和不推荐两类;2003年学者DAVE K、LAWRENCE S、PENNOCK D对观点抽取和语义分类进行了系统研究[2];ABRAHAMS A S等人和樊卫国教授合作在2012年利用评论挖掘进行汽车产品缺陷的发现,并建立相应的决策支持系统[3],在实践中取得较好效果。

  由于中文和英文的差异,中文领域的评论挖掘刚刚起步。2007年,评论挖掘以及句子的语义倾向性判别己经成为很多学者的研究热点;2011年,郗亚辉、张明等学者[4]将产品评论挖掘划分为4个子任务,介绍了国内外学者对每个子任务的研究成果,并给出了该领域进一步的研究方向;2012年,出现了一些产品评论挖掘的研究成果,如参考文献[5]、[6]等;2013年,结合微博的社会性特点构建的微博产品评论挖掘模型[7]出现。

2 领域特征词汇提取

  2.1 笔记本电脑领域文本选取

  读取来自于互联网的约200篇笔记本领域相关文本,大致为笔记本广告和笔记本新闻,这两类文本多为笔记本电脑公司官方或者分销商为介绍其产品而对其进行的描述,因此这类文章中有大量属性词汇以及描述性词汇;再者这类文本的长度一般比较长,适合统计词频,获取笔记本电脑领域特有属性词汇,所以从以上文本中事先做出重点特征词汇的抽取是后面研究的基础。

  2.2 笔记本电脑领域重点特征词汇提取

  领域内的特殊属性词汇在评论中出现的频率较高,表达的意思也比较重要,具体词汇获取办法和步骤是:(1)把从互联网上获取的文本转换整理为文本格式;(2)对每一个文本利用软件ROST Content Mining进行分词处理以及词频统计;(3)设置一个阈值,将符合条件的词汇提取出来。

  经过提取,共有86个高频词汇进入笔记本领域产品属性词汇表,根据字母排序如表1所示。

001.jpg

3 笔记本电脑评论挖掘过程

  3.1 挖掘对象选取

  在进行笔记本电脑评论挖掘之前,首先要明确大部分评论的构成要素以及所要挖掘的重点要素,这些要素直接决定了应该关注评论中的哪些内容。评论内容的存在形式决定着最后进行数据分析时所采用的数学模型和方法。

  在实际的评论挖掘工作中,默认一条完整的产品评论需要包含6个要素:谁、评论时间、在哪里评论、所针对的产品、具体针对哪个属性和评分。所以笔记本电脑产品评论的抽取对象包含:(1)意见表达者(人或组织);(2)意见表达时间(包括评论的原始发表时间和评论的更新时间);(3)意见表达空间(诸如网络论坛、讨论组、专业评论网站等);(4)产品名称(品牌、型号);(5)产品属性;(6)评分。

  3.2 笔记本电脑评论的网页抓取

  3.2.1 评论抓取方式和范围

  大量可用的评论意见零散地分布在各个网页中,因此利用爬虫程序识别评论信息并抓取评论网页。由于笔记本电脑有较快的更新速度,不能对所有页面都进行抓取,因此人为设定抓取时间为2012年8月至2013年3月,抓取空间为点评狂、太平洋电脑评价网站和中关村笔记本论坛,抓取品牌为Sony和ThinkPad。

  3.2.2 数据库设计

  为抓取信息存储,设计原始网页数据库和抽取信息数据库。其中,原始网页数据库是网页原封不动的信息存储,而抽取信息数据库则是用来存储抽取之后的重要信息。抓取步骤如下:

  (1)设计原始网页数据库,包括URL、评论者、评论时间、机型、优点、缺点、评分、价格。

  (2)在原始网页数据库基础上对重点名词和形容词进行抽取后,存储于抽取信息数据库,包括了URL、评论者、评论时间、机型、优点属性、缺点属性、其他、评分、价格。

  (3)根据以上两步数据库中存储的信息以及笔记本电脑领域特殊词汇,通过数据库的查找筛选功能统计出各个词频。

  3.3 评论挖掘结果分析

  将笔记本电脑属性作为此次评论挖掘的重要研究对象之一,在整个研究中有重要作用。通常从商家角度概括笔记本电脑性能特点及优势,但从消费者的个人倾向出发来看待该笔记本电脑的属性能反映广大消费者对该笔记本电脑的心理期望才是本文研究的重点。

  为了方便研究,将笔记本电脑属性分为内在属性、外在属性和抽象属性三类。内在属性包括笔记本电脑样式、大小、重量以及硬件等性质;外在属性包括包装、价格、相关服务等;抽象属性是通过使用之后由于不同消费者的不同感受而引起的,即所谓的情感倾向。

  抽取的评论词根据英文字母排序,存在大量不同的词语表达着相同意思的情况,例如“价钱、价格、费用”和“电池、电源”。因此,将所有属性按内在属性、外在属性和抽象属性进行重新分类,并且将内在属性继续分为笔记本电脑硬件类属性和外观类属性,如表2所示。

002.jpg

  根据表2所示的笔记本电脑属性分类进行词频抽取,具体原则是:对某个产品出现了哪些特征属性,是褒还是贬,出现频次分别为多少;在汇总的属性当中,消费者更关心哪些属性;对于同一条评论,消费者更关心哪些属性,消费者关注的属性之间是否有联系。基于以上几点考虑,将86个高频词汇再次概括为45个具体属性,并对出现频次进行了合并统计,统计结果将在之后的频数分析中进行详细说明。

  词频权值法是根据词在文档中出现的频率来确定其重要程度的一种加权方法,即wk=fk,其中fk为特征项出现的词频。wk的计算公式如式(1)所示,其中,nt表示属性在所有的评论中出现的次数。

  1.png

  将严格分类后的45个属性进行词频测试,每一种属性的具体权重如表3所示。

003.jpg

  从表3可以看出,消费者在市面购买笔记本电脑和使用过程中,对于显示屏和键盘此类属性的关注度远远超过了市面上销售人员在介绍笔记本时所用的处理器、网卡、内存等属性。对于普通消费者来说,显示屏分辨率大小、键盘舒适程度以及电池的续航能力等带有直观感受的笔记本电脑属性更容易影响消费者的购买倾向。与台式机相比,笔记本电脑最大的特点就是便于携带,所以笔记本电脑的重量在外观类属性中远远高于设计风格。对于外在属性来说,用途属性主要是以商务、办公、游戏等形容词为基础进行统计,而服务质量包括了在购买时的服务态度、售后服务是否到位等。从表3可以看出,笔记本电脑的用途、价格属性远远高于其他属性,可以反映出人们在购买笔记本电脑的过程中性价比始终是一个至关重要的影响因素。

  消费者对性能方面和硬件方面的属性关注度普遍高于一些外在属性,说明大部分顾客还是更看重笔记本电脑的内在品质。在硬件属性和外观属性中,前5项所占比例虽有不同,但差距并不大。相比之下,对于外在属性,消费者似乎对于价格和用途的关注远远高于其他外在属性,同时对一些直观方面的属性(例如电池持续能力、散热能力以及显示屏分辨率能力等)关注度远远超过一些常规属性。毕竟对于广大非专业消费者来说,其并不了解笔记本电脑的相关硬件知识,而市面上通常的宣传资料以及经销商在为顾客讲解时却时常侧重于其硬件配置等方面。通过以上频数分析,建议销售人员在介绍其新产品时关注的方向可以侧重于消费者能够直观感受到的一些功能属性。

4 笔记本电脑满意度模型建立

  评论中包含的属性数量和属性特征自然是该笔记本电脑是否符合消费者心理的一个重要因素,评价属性数量尤其是优势属性数越多,表明该产品的满意度越高。再者,通过消费者对于不同属性的关注度的区别,不同属性对于影响笔记本电脑满意度的权重也势必不同。

  Formell模型主要是通过顾客对质量、价值的感知,顾客忠诚,顾客抱怨进行多元回归分析。而根据实际研究情况,本文选择了直接将所有感受即所收集的评价分为优点和缺点,利用优缺点出现的次数和相应评分的回归模型与第一部分中相关属性在整个评价中所占权重建立笔记本电脑满意度模型。

004.jpg

  首先进行优势属性回归。如表4所示,首先提取出根据权值模型计算出的整个评价中权值最大的10个属性;然后根据所抽取的评价信息,如果该评价中出现了首行所示的属性,则记为1,否则为0;之后在最后一列中提取出该评价的评论者在网上或论坛上所给出的评分。在做满意度评价时,统一把评分设定成以10为标准。根据以上规则整理好评价,进行评分以及各属性的回归分析,如表5所示。

005.jpg

  笔记本电脑优点满意度回归=4.28+1.46×重量+1.00×外观+0.88×散热+0.58×键盘+0.89×屏幕+1.04×颜色+2.28×开机+1.29×价格+1.37×电池+1.70×系统。

  根据之前的分析得出,每一种笔记本电脑优势属性的权重有着很大的差别,从而在进行优点回归之后乘以相应的属性权值即为优点回归模型,记为:

  2.png

  同理,用相同的方法可以得到笔记本电脑缺陷模型。首先根据权重评价模型中对出现的笔记本电脑缺点的统计,抽取出12个出现频数较高的属性并做出布尔统计矩阵,结果如表6所示。

006.jpg

  之后利用评分以及属性进行回归分析得出回归分析系数,结果如表7所示。

007.jpg

  从而得出消费者对于笔记本电脑缺陷的抱怨程度模型= -(8.13+0.58×电池+1.61×开机+0.32×散热+1.35×系统+0.80×屏幕+0.65×硬盘+0.41×价格+0.39×键盘+1.62×接口+1.21×速度+1.29×声音+0.89×自带软件)

  345.jpg

  从标准回归方程可以看出,影响笔记本电脑顾客满意度的因素即为笔记本电脑的重点属性,包括由笔记本硬件属性、内在外在属性以及它们每种属性在之前词频模型中所占的权重。

5 结论

  本文基于产品评论挖掘理论、Fomell模型,使用文本挖掘、多元回归、数据库等方法和技术,完成了笔记本电脑领域特征词汇的提取、产品评论的挖掘、满意度评价模型的建立三项工作。本文研究思路不同于以往的头脑风暴、问卷调研、AHP等建立评价指标体系的思路,充分利用了网络论坛上丰富的消费者评论信息,提取和挖掘消费者最真实的产品使用体验来建立指标体系和满意度模型,研究成果对消费者和产品制造商有参考借鉴意义。

  参考文献

  [1] TURNEY P. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[J]. Proceedings of the Association of Computational Linguistics(ACL02), Philadelphia, 2002: 417-424.

  [2] DAVE K, LAWRENCE S, PENNOCK D M. Mining the peanut gallery: opinion extraction and semantic classification of product reviews[C]. Proceedings of the 12th International Conference on World Wide Web, New York, 2003:519-528.

  [3] ABRAHAMS A S, Jiao Jian, WANG G A, et al. Vehicle defect discovery from social media[J]. Decision Support Systems, 2012(54): 87-97.

  [4] 郗亚辉,张明,袁方,等.产品评论挖掘研究综述[J].山东大学学报(理学版),2011,46(5):16-23,38.

  [5] 易力,王丽亚.基于观点挖掘的产品可用性建模与评价[J].计算机工程,2012,38(16):270-274.

  [6] 李芳,何婷婷,宋乐,等.评价主题挖掘及其倾向性识别[J].计算机科学,2012,39(6):159-162.

  [7] 唐晓波,王洪艳.微博产品评论挖掘模型研究[J].情报杂志,2013,32(2):107-111,127.


此内容为AET网站原创,未经授权禁止转载。