针对在线教育情感分析的数据扩充研究-AET-电子技术应用

针对在线教育情感分析的数据扩充研究

网络安全与数据治理 2022年第1期

黄伟强1，刘海2，梁韬文2，杨海华2

(1.华南师范大学网络中心，广东广州510631；2.华南师范大学计算机学院，广东广州510631)

摘要： 在互联网上大量主观性的评论具有丰富的研究价值，可以通过对评论的分析获取评论的情感极性。在对大量评论进行情感分析时，存在时间和人力消耗过多等问题，针对该问题，提出了基于聚类分析的文本数据扩充方法：在对少量关键数据进行标注的基础上，通过聚类分析标注大量数据，以减少情感分析在实际应用中的成本。以在线教育平台的评论为例，对目前多个主流在线教育平台上爬取的共569 970条中文评论数据进行少量标注，然后使用该方法进行数据扩充，最后基于目前多个主流机器学习模型和卷积神经网络模型进行情感分析训练。研究结果表明，数据处理经过聚类后取得较好的数据扩充效果，其中采用卷积神经网络模型进行的情感分析，准确度可以达到96.5%。

关键词： 数据扩充情感分析自然语言处理聚类分析

中图分类号： TP391
文献标识码： A
DOI： 10.20044/j.csdg.2097-1788.2022.01.015
引用格式：黄伟强，刘海，梁韬文，等. 针对在线教育情感分析的数据扩充研究[J].网络安全与数据治理，2022，41(1)：93-100.

A data augmentation method for online education sentiment analysis

Huang Weiqiang1，Liu Hai2，Liang Taowen2，Yang Haihua2

(1.Network Center，South China Normal University，Guangzhou 510631，China； 2.School of Computer Science，South China Normal University，Guangzhou 510631，China)

Abstract： A large number of subjective comments have rich research value on the Internet. The sentiment polarity of the comments can be obtained through the sentiment analysis of the text. However, there are many problems such as excessive time and human resource consumption in sentiment analysis of massive text comments. In response to the above problems, a method of augmenting data based on cluster analysis is proposed to reduce the cost of sentiment analysis in practical applications. The method can label a large amount of data based on a small amount of key data. Taking reviews on online education platforms as an example, in this paper, a small number of data are labelled on a total of 569 970 Chinese comments crawled on many mainstream online education platforms and then augmented using the method mentioned in this paper，four popular machine learning models and the CNN(Convolutional Neural Network) model are used in the sentiment analysis. The experimental results show that the data processing achieves better data expansion effect after clustering，and the Chinese sentiment analysis model based on the convolutional neural network has an accuracy of 96.5%.

Key words : text data augmentation；sentiment analysis；natural language processing；cluster analysis

0 引言

随着信息技术的飞速发展，在线教育逐渐兴起，越来越多的人在在线教育课程中留下了有价值的评论，通过对这些评论进行情感分析可以达到多方面的目的，如分析学生对课程的满意度、调查老师授课水平、挖掘课程质量等。

情感分析(Sentiment Analysis)，又称为情感倾向性分析[1]，目的是找出文本中情感的正负性，如正面或负面、积极或消极，并且把这种正负性数值化，以百分比或者正负值的方式表现出来。情感分析的研究方法大致可以分为两种：一是基于情感词典的情感分析[2]，主要通过建立情感词典或领域词典及通过文本中带有极性的情感词进行计算来获取文本的极性，由于依赖于情感词典，存在覆盖率不足等缺点；二是基于机器学习的情感分析，包括监督学习、无监督学习和半监督学习三种方法，其中与监督学习和无监督学习相比，半监督学习通过少量标注数据和大量无标注数据进行识别，既不用对所有的数据进行标注，也不依赖先验经验，有较好的实用性，从而被许多学者应用在情感分析问题上，如陈珂等[3]利用基于分类器集成的self-training方法进行情感分析研究，使用少量标注样本和大量未标注样本来进行情感分析训练，准确率达86%。

数据扩充[4]是一种结合机器学习使用的方法，在训练样本不足的情况下，可使模型训练更好地拟合，通过与半监督的方法相结合，可达到标注少量数据以扩充至大量训练数据的效果。数据扩充方法目前已被用于图像、交通、医疗等领域[5-7]，目前主流的数据扩充方法有图像翻转、随机噪声、标签传播等[8]。

情感分析目前已被应用于如电影评论、书籍评论、微博短评等多个领域，但在在线教育课程评论领域的应用还较缺乏，把情感分析应用在在线教育课程评论上存在着各种挑战，如评论数据的获取、评论数据的标注等。为了解决以上问题，本文借鉴半监督学习的方法，提出基于聚类分析的文本数据扩充方法：对少量关键数据进行标注，并通过聚类分析获得大量已标注数据。在目前主流在线教育平台爬取的569 970条课程评论中选取1 000条关键数据进行标注并使用本文数据扩充方法扩充至10万条标注数据，分别利用SVM[9]、RandomForest[10]、AdaBoost[11]、GradientBoost[12]和CNN模型对标注数据进行训练，实验表明，与目前主流的LabelSpreading算法相比，本文的数据扩充方法均有准确率上的优势。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000004618

作者信息：

黄伟强1，刘海2，梁韬文2，杨海华2

(1.华南师范大学网络中心，广东广州510631；2.华南师范大学计算机学院，广东广州510631)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容