新“代码中毒”攻击可逃避任何已知的防御?
2021-08-15
来源:红数位
美国康奈尔大学技术团队的一组研究人员发现了一种新型的后门攻击,他们展示了这种攻击可以“操纵自然语言建模系统以产生错误的输出并逃避任何已知的防御”。
康奈尔技术团队表示,他们相信这些攻击能够危及算法交易、电子邮件账户等。该研究得到了谷歌学院研究奖以及NSF和施密特期货计划的支持。
根据周五发布的一项研究,后门可以操纵自然语言建模系统,而无需“通过将恶意代码上传到许多公司和程序员经常使用的开源站点来访问原始代码或模型”。研究人员在周四举行的USENIX安全会议上的一次演讲中将这些攻击命名为“代码中毒”。
这种攻击将赋予个人或公司巨大的权力,可以修改包括电影评论在内的各种内容,甚至投资银行的机器学习模型,因此它会忽略可能对公司股票产生影响的新闻。
“攻击是盲目的:攻击者不需要观察他的代码的执行,也不需要在训练期间或训练后观察后门模型的权重。攻击在模型训练时”即时“合成投毒输入,并使用多目标优化,以在主任务和后门任务上同时实现高精度,”报告说。
“我们展示了如何使用这种攻击将单像素和物理后门注入ImageNet模型、将模型切换到隐蔽功能的后门以及不需要攻击者在推理时修改输入的后门。然后我们演示了代码中毒攻击可以逃避任何已知的防御,并基于检测与模型可信计算图的偏差提出了一种新的防御。”
Eugene Bagdasaryan是康奈尔理工学院的计算机科学博士候选人,与 Vitaly Shmatikov教授共同撰写了这篇新论文的主要作者,他解释说,许多公司和程序员使用互联网上开源站点的模型和代码,这项研究证明了它的重要性是在将材料集成到任何系统之前对其进行审查和验证。
“如果黑客能够实施代码中毒,他们就可以操纵自动化供应链和宣传的模型,以及简历筛选和有害评论删除,”Bagdasaryan说。
Shmatikov补充说,在之前的攻击中,黑客必须在训练或部署期间访问模型或数据,这需要渗透受害者的机器学习基础设施。“通过这种新的攻击,攻击可以在模型甚至存在或收集数据之前提前完成——并且一次攻击实际上可以针对多个受害者,”Shmatikov说。
该论文深入研究了“基于妥协模型训练代码中的损失值计算,向机器学习模型中注入后门”的攻击方法。
使用情绪分析模型,该团队能够复制攻击如何在某些事情上起作用,例如总是将Ed Wood制作的电影的任何评论归类为正面。
“这是一个语义后门的例子,不需要攻击者在推理时修改输入。后门是由任何人写的未经修改的评论触发的,只要他们提到攻击者选择的名字,”论文发现。 “机器学习管道包括来自开源和专有存储库的代码,通过构建和集成工具进行管理。代码管理平台是恶意代码注入的已知载体,使攻击者能够直接修改源代码和二进制代码。”该研究指出,流行的ML存储库拥有数千个分支,“仅伴随着基本测试(例如测试输出的形状)。”为了抵御攻击,研究人员提出了一种可以检测模型原始代码偏差的系统。
但Shmatikov表示,由于人工智能和机器学习技术的流行,许多非专家用户正在使用他们几乎不理解的代码构建模型。
“我们已经证明这可能会带来毁灭性的安全后果,”Shmatikov说。 他补充说,关于如何利用攻击来自动化宣传和其他破坏性工作,还需要做更多的工作。Shmatikov说,这项工作的目标是现在创建一个防御系统,该系统将能够“消除这一整类攻击并使AI/ML即使对非专家用户也是安全的”。