基于预训练模型的基层治理敏感实体识别方法 | |
所属分类:技术论文 | |
上传者:zhoubin333 | |
文档大小:3658 K | |
标签: 预训练语言模型 基层治理 中文命名实体识别 | |
所需积分:0分积分不够怎么办? | |
文档介绍:基层治理产生的大量敏感数据可通过数据脱敏去除隐私内容,但这些数据包含较多非结构化文本数据,难以直接进行数据脱敏。因此,需要对非结构化文本数据进行命名实体识别以提取敏感数据。首先把敏感实体分为16类并对信访文本进行标注,输入层表示采用预训练模型BERT,编码层利用双向长短时记忆网络汲取上下文信息,解码层通过条件随机场模型优化序列,构建了较高精度的基层治理敏感实体识别模型。针对脱敏工作需要,改变假阴性和假阳性的loss权重,并采用敏感实体框选率辅助评价模型性能。在基层治理信访数据集和公共数据集MSRA上进行实验,F1值分别为88.38%和90.11%,相较于基准模型提升了4.64%和3.78%。该模型可应用于非结构化文本的敏感实体识别,识别成功率高。现有评价指标未能较好地反映敏感实体的间接推理关系,应当探索更完善的敏感实体评价体系。 | |
现在下载 | |
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。 |
Copyright © 2005-2024 华北计算机系统工程研究所版权所有 京ICP备10017138号-2