基于多头卷积残差连接的文本数据实体识别
网络安全与数据治理
刘微,李波,杨思瑶
沈阳理工大学信息科学与工程学院
摘要: 为构建工作报告中的文本数据关系型数据库,针对非结构化文本数据中有效信息实体提取问题以及传统网络在提取信息时特征丢失问题,设计了一种基于深度学习的实体识别模型RoBERTa-MCR-BiGRU-CRF,首先利用预训练模型RoBERTa作为编码器,将训练后的词向量输入到多头卷积残差网络层MCR扩充语义信息,接着输入到门控循环BiGRU层进一步提取上下文特征,最后经过条件随机场CRF层解码进行标签判别。经过实验,模型在工作报告数据集上F1值达到96.64%,优于其他对比模型;并且在数据名称实体类别上,F1值分别比BERT-BiLSTM-CRF和RoBERTa-BiGRU-CRF提高了3.18%、2.87%,结果表明该模型能较好地提取非结构化文本中的有效信息。
中图分类号:TP391.1文献标识码:ADOI:10.19358/j.issn.2097-1788.2024.12.008
引用格式:刘微,李波,杨思瑶. 基于多头卷积残差连接的文本数据实体识别[J].网络安全与数据治理,2024,43(12):54-59.
引用格式:刘微,李波,杨思瑶. 基于多头卷积残差连接的文本数据实体识别[J].网络安全与数据治理,2024,43(12):54-59.
Text data entity recognition based on muti-head convolution residual connections
Liu Wei, Li Bo, Yang Siyao
School of Information Science and Engineering, Shenyang University of Technology
Abstract: To construct a relational database for text data in work reports, and address the problem of extracting useful information entities from unstructured text and feature loss in traditional networks during information extraction, a deep learning-based entity recognition model, which is named RoBERTa-MCR-BiGRU-CRF is proposed. The model firstly uses the pre-trained model Robustly Optimized BERT Pretraining Approach (RoBERTa) as an encoder, feeding the trained word embeddings into the Multi-head Convolutional Residual network (MCR) layer to enrich semantic information. Next, the embeddings are input into a gated recurrent Bidirectional Gated Recurrent Unit (BiGRU) layer to further capture contextual features. Finally, a Conditional Random Field (CRF) layer is used for decoding and label prediction. Experimental results show that the model achieves an F1 score of 96.64% on the work report dataset, outperforming other comparative models. Additionally, for named entity categories in the data, the F1 score is 3.18% and 2.87% higher than BERT-BiLSTM-CRF and RoBERTa-BiGRU-CRF, respectively. The results demonstrate the model′s effectiveness in extracting useful information from unstructured text.
Key words : deep learning; named entity recognition; neural networks; data mining
引言
实体识别在信息抽取方面有着重要作用,现阶段数据提取主要是利用深度学习技术,运用到命名实体识别(Named Entity Recognition,NER)中提取名词和一些相关概念。命名实体识别可以提取有效数据,去除无关信息,方便建立数据库,对数据进行后续处理与追踪从而提升其安全性,可以应用于构建知识图谱问答系统和数据追溯系统等领域。实体识别本质上是解决一个序列标注问题,对文本和数字序列进行标签分类。
随着深度学习技术的发展,实体识别取得了显著进展,传统的基于规则和词典的方法逐渐被基于统计学习和神经网络的方法所取代,自2018年以来,基于BERT的预训练神经网络模型(如BERT-BiLSTM-CRF)在多个公开数据集上达到了同年的最好性能。本文提出一种新的融合外部知识资源的方法来提高NER模型的性能。本模型在自制的数据集上进行实验,验证了所提方法在非结构文本数据方面识别的性能,证明模型在NER任务中的有效性。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006267
作者信息:
刘微,李波,杨思瑶
(沈阳理工大学信息科学与工程学院,辽宁沈阳110158)
此内容为AET网站原创,未经授权禁止转载。