《电子技术应用》
您所在的位置:首页 > 通信与网络 > 设计应用 > 基于机器学习的B2B电子商务平台产品排名研究
基于机器学习的B2B电子商务平台产品排名研究
2016年微型机与应用第11期
王晗璐,夏斌
(上海海事大学 信息工程学院,上海 201306)
摘要: 随着互联网的发展,电子商务已经成为一种新的商业活动模式。商品在电子商务平台的排名,直接决定了产品的销量。如何优化产品的排名,是所有电子商务公司关注的问题。从商品的文本信息角度出发,利用机器学习方法来研究文本信息与产品排名之间的关系。从特征提取方法和分类算法两个角度进行了比较研究。首先比较了TFIDF和词频法(WF)两种特征提取方法,进一步又比较了朴素贝叶斯、支持向量机(SVM)以及随机森林(RF)三个分类算法。研究结果表明,在该文的数据集上进行文本分类排名分析,词频法结合随机森林取得了最好的分类效果。
Abstract:
Key words :

  王晗璐,夏斌

  (上海海事大学 信息工程学院,上海 201306)

  摘要:随着互联网的发展,电子商务已经成为一种新的商业活动模式。商品在电子商务平台的排名,直接决定了产品的销量。如何优化产品的排名,是所有电子商务公司关注的问题。从商品的文本信息角度出发,利用机器学习方法来研究文本信息与产品排名之间的关系。从特征提取方法和分类算法两个角度进行了比较研究。首先比较了TFIDF和词频法(WF)两种特征提取方法,进一步又比较了朴素贝叶斯、支持向量机(SVM)以及随机森林(RF)三个分类算法。研究结果表明,在该文的数据集上进行文本分类排名分析,词频法结合随机森林取得了最好的分类效果。

  关键词:产品排名; 词频法; 随机森林; 文本分类

0引言

  电子商务的概念起源于1995年,阿里巴巴国际站(简称:阿里国际站)是一个主要的电商平台[1],它为小型商家的国际贸易提供良好的平台。商家们通过在平台上展示商品,从而获得商机[23]。为了获得更多的商机,改善产品在阿里平台上的排名十分重要。平台中产品展示的信息包括产品标题、属性、图片等,还有一些无法看到的信息,如产品关键词。当用户输入关键词后,阿里平台会根据相关产品的信息进行打分,然后生成一个产品列表,得分越高的产品排名越靠前,被用户浏览到的可能性越大,反之,产品分数越低,排名越靠后,产品销量越小。

  如今,有很多人讨论如何做好阿里平台产品的信息优化,从而改善产品排名,但大多是更换产品关键词、更新标题、增加属性、多使用热搜词、展示更清晰精美的图片等。这些都需要大量的手动工作,而且效果也不尽人意,可行性较低。

  根据阿里国际站的官方白皮书介绍,商品的标题及相关的商品属性描述,是影响商品排名的重要因素。在本文中,考虑利用商品的标题和属性特征进行分析,研究这类文本信息与商品排名之间的关系。假设产品标题及属性的组合,在排名靠前的商品中有一些共同的特性。为了分析这样的共性,结合自然语言处理技术和机器学习方法,拟利用文本分类的方法来研究,如果排名相近的产品在标题和属性的组合上存在一些共性,则它们应该会被分到同一类别中。

1方法

  1.1特征提取

  本文中,使用的产品标题和属性属于文本数据,首先要对其进行特征提取,转化为数字样本。本文应用了两种自然语言处理中常用的特征提取方法[4]。

  (1)TFIDF

  假如一个词语在一篇文档中频繁出现,但在其他文档中极少出现,则可用这个词语去区分这篇文档。其中TF和IDF分别计算如下:

  12.png

  式(1)中,nij表示第i个词在文档dj中出现的次数,分母表示文档dj中包括词语的总数。式(2)中,|D|表示数据集中的文档总数,|{j:ti∈dj}|表示包含词ti的文档数。于是TFIDF计算如下:

  TFIDFi,j=TFi,j*IDFi(3)

  (2)WF

  对文档中出现的词语进行计数。如果单词在文档中出现,计数加1,本文还应用了2gram方法,即每两个相邻的词语,也记为一项。

  1.2分类器

  (1)朴素贝叶斯

  在短文本分类问题中,x=(x1,x2,…,xn)表示一篇文档,每篇文档均表示为一个类似于x的向量,样本集合记作X。对应地,类别集合记作C={c1,c2,…,cm}。朴素贝叶斯分类器的原理是:假设每个特征之间是相互独立的,通过比较后验概率值的大小,把该样本判别为后验概率值最大的那一类。后验概率的计算公式为:

  P(ci|x)=P(x|ci)P(ci)P(x)(4)

  (2)支持向量机

  SVM是基于间隔最大化的一种分类算法[56]。对于线性数据而言,它希望空间中的样本点尽可能地远离分类超平面。对于非线性输入,SVM可以应用核函数,将其映射到高维空间转换输入为线性的。SVM具有良好的泛化能力,在各种文本分类问题中表现良好。

  (3)随机森林

  随机森林是Breiman Leo和Adele Cutler于2001年提出的, 它是一种基于决策树的机器学习算法[7]。其训练模型的方法是训练多棵决策树,并综合每棵树的分类结果进行最终的决策。在该算法中,需要考虑的参数有两个,一个是决策树的数量,另一个是分裂节点输入的特征数,通常设置为总特征数的开方,文本也是使用这种方法。

  随机森林的分类结果取决于每个决策树的分类结果[8]。本文应用对每棵树判别为每个类别的概率取平均值,将概率最大的那类判别为样本的类别。

2实验

  2.1实验数据

  本文使用10个类别(包括:服装、运输、电子产品、工艺品、玩具、箱包、食品、鞋子、家具和照明)的100个词,在阿里国际站平台抓取产品信息。每个类别选取了10个词,每个词选择前三页和后三页的产品信息作为数据集。移除了首页前5个付费(P4P)产品。综上,共有100个关键词,每个有6页产品信息,每页有38个产品。因此,数据集中共有22 800个样本。其中前三页的产品被记为正类样本,后三页记为负类样本。整个数据集按照7∶3划分为训练样本集和测试样本集,并以5次实验得到的分类准确率的平均值作为最终的结果。

  2.2实验结果

  (1)特征提取方法比较结果

  为了寻找适合表示产品信息的方法,本文采用了WF和TFIDF两种文本特征提取方法。应用这两种方法对文本信息进行特征提取后,应用RF分类算法进行分类模型的训练和验证。表1是测试准确率的对比结果。结果很显然,不论森林中决策树的数量为多少,WF在分类准确率方面始终优于TFIDF。但是使用相同的分类器模型时,TFIDF拥有较少的特征数,所以计算时间要比WF短。

001.jpg

002.jpg

  (2)分类器比较结果

  为了找到适合本课题的分类算法,分别采用了朴素贝叶斯、SVM以及RF三种分类算法。应用WF和TFIDF进行特征提取,并输入到上述三种分类器中,测试准确率结果对比分别如表2和表3。结果很显然,在三种分类器的分类效果对比中,RF表现最好。

  2.3实验分析

  首先,采用RF作为分类器,分别应用WF和TFIDF,结果显示WF的分类效果始终优于TFIDF。这应该是由阿里国际站中产品的信息结构决定的,因为产品标题主要由产品核心词以及部分属性构成。因此同类产品中出现近似词汇的可能性极大,这样TFIDF算法中的IDF将无法发挥出有效区分文档的作用。而WF方法很好地表现了产品标题和属性包含哪些词。因此WF是更适合对产品标题进行特征提取的方法。

  其次,可以看到RF表现最好,准确率达到了86.88%。因为SVM的缺点是不适合大数据集。朴素贝叶斯的缺点是,当特征维数较高时表现较差。

3结论

  本文利用机器学习方法研究了商品文本信息对排名的影响。研究结果表明,排名相近的商品在文本属性上也有相似性,在分类问题中表现为可以被分到同一类中。根据本文的比较分析,针对本文应用的数据集,WF与RF结合的方法在分类性能上表现最佳,也有最好的计算效率。

  参考文献

  [1] Hu Yongquan, Zhao Shukun. A case study of online retail innovation system on alibaba Taobao[C]. EBusiness and EGovernment(ICEE), 2010: 224227.

  [2] Bai Ou. Governance of innovation network in services: The case of alibaba[C].  International Symposium on Management of Technology (ISMOT), 2012: 8186.

  [3] Guo Jingzhi, LAM J H, LEI J, et al. Alibaba international: building a global electronic marketplace[C].IEEE International Conference on eBusiness engineering (ICEBE), 2006:545548.

  [4] Li Shengdong, Lv Xueqiang, Zhou Qiang, et al. Study on key technology of topic tracking based on VSM[C]. IEEE International Conference on Information and Automation (ICIA), 2010: 24192423.

  [5] Thorsten Joachims. Text Categorization with support vector machines: learning with many relevant feature[C]. Proceedings of ECML98, 10th European Conference on Machine Learning, Chemnitz,Germany, 1998.

  [6] Li Tianbing. On KNN and SVM text classification technology in knowledge management[J]. Electronic and Mechanical Engineering and Information Technology (EMEIT), 2011, 36(3):39233926.

  [7] 李航.统计学习方法[M].北京:清华大学出版社,2012.

  [8] BERNARD S, ADAM S, HEUTTE L. Using random forests for handwritten digit recognition[J]. Document Analysis and Recognition, 2007, 12(10):10431047.


此内容为AET网站原创,未经授权禁止转载。