文献标识码:A
DOI:10.19358/j.issn.2097-1788.2023.08.012
引用格式:裴卓雄,杨敏,杨婧.基于TextCNN-Bert融合模型的不良信息识别技术[J].网络安全与数据治理,2023,42(8):72-76.
0 引言
随着互联网行业蓬勃发展,网络上不良信息的泛滥引发了诸多社会问题,特别是历史、时政新闻等敏感领域的不良信息,通过编排、篡改、杜撰、伪造的方式,具有极强的迷惑性和欺骗性,腐蚀人们的思想,影响人们的价值观和判断能力,危害社会安全[1]。文本作为主要传播方式,研究敏感领域不良信息的识别技术具有深远意义。
自然语言处理技术( Natural Language Processing, NLP)能够对文本进行深入分析和理解,从而实现文本的分类和识别。Kim[2]提出一种用于文本分类的卷积神经网络模型TextCNN,可以在一定程度上避免梯度消失的问题,而且在处理短文本和固定长度文本时表现良好。Lai[3]提出了文本分类模型RCNN,同时结合了卷积神经网络和循环神经网络的优点。Wang[4]比较不同循环神经网络模型在文本分类任务中的性能,表明了LSTM模型在文本分类的优势。Devlin[5]提出了BERT模型,该模型是一种基于Transformer网络的预训练模型,可用于自然语言处理任务,如文本分类、语言推断等。Chen[6]提出了一种基于双向情感表情符号嵌入和基于注意力的LSTM的Twitter情感分析方法,该方法使用双向LSTM来学习句子中的上下文信息,使用注意力机制来加强对重要信息的关注,使用情感表情符号来增强情感分类的精度。李志杰[7]提出一种基于 LSTM 和 TextCNN 的联合模型,捕捉文本中的上下文关系和局部特征,提高短文本分类的准确性。Sanagavarapu[8]提出BiLSTM和人工神经网络ANN组成的混合模型,通过上下位词的概念获取新闻的语义并映射到ANN模型上,提升对新闻文章分类的准确性。Rehman[9]提出了一种基于CNNLSTM的混合模型,用于提高电影评论情感分析的准确性。该模型利用CNN提取局部特征,LSTM则用于学习序列信息,从而结合了两种模型的优点。
敏感领域属于专业领域,不良信息的识别技术研究十分有限,通用的识别技术可以直接应用于识别,但存在以下问题:一是领域特定语言和术语问题。敏感领域具有丰富的领域特定语言和术语,这些语言和术语可能对于通用模型不易理解,从而导致文本识别准确率下降。二是背景知识问题。敏感领域涉及敏感事件、人物和背景等方面的知识,这些知识对于模型来说可能是未知的,需要进行特殊的处理才能进行识别和理解。三是文本复杂性的问题。敏感领域文本非常复杂,包含大量的隐喻、比喻和引申意义,这些都需要模型具备识别和理解的能力。
因此,本文将敏感领域不良信息的识别问题转化为敏感领域主题识别任务和情感隐喻识别任务,提出一种基于TextCNNBert融合模型,既利用TextCNN对关键词和局部特征更加敏感的优势,准确识别敏感领域的特定语言和术语;又能利用Bert的预训练能力和自注意力机制,提升对隐喻、比喻和引申意的识别。实验结果表明,本模型在准确率、召回率、精确率等方面识别效果良好。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005470
作者信息:
裴卓雄1,杨敏2,杨婧2
(1.国家计算机网络应急技术处理协调中心,北京100032;2.国家计算机网络应急技术处理协调中心山西分中心,山西太原044400)