文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2020.07.009
引用格式: 吴习沫,朱广宇,张雷. 安全类文章的多文本分类系统的设计与实现[J].信息技术与网络安全,2020,
39(7):52-56,60.
互联网已成为信息传播的普遍途径,然而,由于互联网中的冗余信息过多,各网站提供的标签没有统一的分类标准,使得整合某一特定类的文章信息所消耗的时间成本和人力成本增加。但目前为止,针对网络安全类网站的技术类文章,还没有一套系统能够很好地解决上述对应问题。
为迅速掌握最新的网络安全信息,本文设计并实现了基于CNN和LSTM混合模型的安全类文章多文本分类系统,该系统从多种来源收集安全类技术文本,并将它们以特定格式汇总,自动标记汇总后的文章内容。就信息收集而言,系统主要采集近一年的安全类技术文本,收集的目标内容主要包括文章内容和网页自带的标签,对于各网站自定义的文章标签,可作为多标签的一部分,供用户参考。安全类文本与普通文本对比需要由多个标签对其进行标记分类处理。因此安全类文本的分类要难于普通文本分类处理。
面向网络安全数据高并发的安全类网站,本文设计和实现了信息采集模块,该模块主要实现了基于Scrapy框架的分布式爬虫程序设计,完成了多个安全类网站技术类文章的文本信息数据采集。
本文设计并实现了信息分类模块,它负责对所获得的数据进行预处理、文本表示以及文本分类,其中文本分类模块具体提出了一种基于CNN和LSTM的混合分类模型,它综合了CNN与LSTM的优点,提高了模型的特征提取能力。实验结果表明,基于CNN和LSTM的混合分类模型达到了比较高的准确率,CNN和LSTM的混合模型的准确率为91.99%。CNN-LSTM与CNN、LSTM相比分类准确率提高了1.79%和1.54%。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003231
作者信息:
吴习沫,朱广宇,张 雷
(华北计算机系统工程研究所,北京100083)