基于预训练模型的基层治理敏感实体识别方法
所属分类:技术论文
上传者:zhoubin333
文档大小:3658 K
标签: 预训练语言模型 基层治理 中文命名实体识别
所需积分:0分积分不够怎么办?
文档介绍:基层治理产生的大量敏感数据可通过数据脱敏去除隐私内容,但这些数据包含较多非结构化文本数据,难以直接进行数据脱敏。因此,需要对非结构化文本数据进行命名实体识别以提取敏感数据。首先把敏感实体分为16类并对信访文本进行标注,输入层表示采用预训练模型BERT,编码层利用双向长短时记忆网络汲取上下文信息,解码层通过条件随机场模型优化序列,构建了较高精度的基层治理敏感实体识别模型。针对脱敏工作需要,改变假阴性和假阳性的loss权重,并采用敏感实体框选率辅助评价模型性能。在基层治理信访数据集和公共数据集MSRA上进行实验,F1值分别为88.38%和90.11%,相较于基准模型提升了4.64%和3.78%。该模型可应用于非结构化文本的敏感实体识别,识别成功率高。现有评价指标未能较好地反映敏感实体的间接推理关系,应当探索更完善的敏感实体评价体系。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。