改进的TF-IDF算法在文本分类中的研究
所属分类:技术论文
上传者:zhoubin333
文档大小:491 K
标签: 文本分类 VSM TF-IDF
所需积分:0分积分不够怎么办?
文档介绍:企业数字化建设过程中,对大量日常经营活动文本的数字化处理通常是多任务的,需要对文本数据同时完成信息抽取和文本分类任。在此应用场景下,为了实现更加精准的分类效果,提出一种改进的TF-IDF算法,将文本信息抽取结果也作为文本重要类别区分特征。通过引入信息增益方法得到改进的权重计算公式,进而得到改进的文本特征向量空间表示,再构建文本分类模型。实验以石油行业中文文本为例,选取测试文本2 006条进行文本分类对比实验,实验结果表明改进的TF-IDF算法精确率P达到99.3%,召回率R达到98.7%,相比于传统TF-IDF算法文本分类效果得到显著提高。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。