基于梯度优化的大语言模型后门识别探究
所属分类:技术论文
上传者:wwei
文档大小:1222 K
标签: 大语言模型 后门攻击 基于梯度的后门识别
所需积分:0分积分不够怎么办?
文档介绍:随着大语言模型的流行并且应用在越来越多的领域,大语言模型的安全问题也随之而来。 通常训练大语言模型对数据集以及计算资源有着极为苛刻的要求,所以有使用需求的用户大部分都直接利用网络上开源的数据集以及模型,这给后门攻击提供了绝佳的温室。后门攻击是指用户在模型中输入正常数据时模型表现像没有注入后门时一样正常,但当输入带有后门触发器的数据时模型输出异常。防止后门攻击的有效方法就是进行后门识别。目前基于梯度的优化方法是比较常用的,但使用这些方法时内部影响因子的设定对识别效果具有一定影响。文章就词令牌数量、最邻近数量、噪声大小进行了实验测量和作用机制的分析,以便为后续使用这些方法的研究者提供参考。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。