基于梯度优化的大语言模型后门识别探究
网络安全与数据治理
陈佳华1,陈宇2,曹婍3
1 电子科技大学信息与软件工程学院,四川成都610066;2 北京邮电大学计算机学院,北京100876; 3 中国科学院计算技术研究所智能算法安全重点实验室,北京100190
摘要: 随着大语言模型的流行并且应用在越来越多的领域,大语言模型的安全问题也随之而来。 通常训练大语言模型对数据集以及计算资源有着极为苛刻的要求,所以有使用需求的用户大部分都直接利用网络上开源的数据集以及模型,这给后门攻击提供了绝佳的温室。后门攻击是指用户在模型中输入正常数据时模型表现像没有注入后门时一样正常,但当输入带有后门触发器的数据时模型输出异常。防止后门攻击的有效方法就是进行后门识别。目前基于梯度的优化方法是比较常用的,但使用这些方法时内部影响因子的设定对识别效果具有一定影响。文章就词令牌数量、最邻近数量、噪声大小进行了实验测量和作用机制的分析,以便为后续使用这些方法的研究者提供参考。
中图分类号:TP309文献标识码:ADOI:10.19358/j.issn.2097-1788.2023.12.003
引用格式:陈佳华,陈宇,曹婍.基于梯度优化的大语言模型后门识别探究[J].网络安全与数据治理,2023,42(12):14-19.
引用格式:陈佳华,陈宇,曹婍.基于梯度优化的大语言模型后门识别探究[J].网络安全与数据治理,2023,42(12):14-19.
Research on gradient optimization based backdoor identification of large language model
Chen Jiahua1,Chen Yu 2,Cao Qi3
1 School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu 610066, China; 2 School of Computer Science,Beijing University of Posts and Telecommunications, Beijing 100876, China; 3 CAS Key Laboratory of AI Security, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
Abstract: With the popularity of large language models (LLM) and their application in more fields, the security concerns of large language models also arise. In general, training LLM has extremely demanding requirements for datasets and computing resources, so most users who need to use them directly use opensource datasets and models on the Internet, which provides an excellent greenhouse for backdoor attacks. A backdoor attack is when a user enters normal data into the model as if it were not injected with a backdoor, but the model output is abnormal when data with a backdoor trigger is input. An effective way to prevent backdoor attacks is to perform backdoor identification. At present, gradientbased optimization methods are commonly used, but the setting of internal impact factors has a great impact on the recognition effect when using these methods. In this paper, the word token length, the number of nearest neighbors, and the noise scale are measured experimentally and the mechanism of action is analyzed, so as to provide reference for researchers who use these methods in the future.
Key words : large language models; backdoor attack; gradient based backdoor identification; impact factor
引言
近年来,大语言模型越来越多地运用在了人们的日常生活中,也诞生了很多著名的模型比如ChatGPT、GPT4[1]、LLaMA[2]等。这些模型能够进行广泛的任务如文本总结、情感分析等,有研究表明大模型具有小模型没有的能力[3],如推理能力等。大语言模型也成为现在研究的热点之一。但任何事物都有它的两面性。大语言模型的训练需要有足够且良好的训练数据集,且由于其庞大的参数量,对计算资源的需求也极高。例如GPT35具有1 750亿的参数量,使用数据集达到了45 TB的大小[4]。在大部分情况下,使用者可能会选择直接使用网络上开源的大模型来进行下游任务的完成,或者使用领域特定数据集在开源大模型的基础上进行微调从而定制化领域特定模型。在这种大环境下,开源大模型如果存在安全问题将造成严重的危害。
作者信息
陈佳华1,陈宇2,曹婍3
(1 电子科技大学信息与软件工程学院,四川成都610066;2 北京邮电大学计算机学院,北京100876;
3 中国科学院计算技术研究所智能算法安全重点实验室,北京100190)
文章下载地址:https://www.chinaaet.com/resource/share/2000005871
此内容为AET网站原创,未经授权禁止转载。