AI监管 | 用户数据用于AI模型训练场景的合规要点初探
2021-08-22
来源:网安寻路人
大数据、物联网、深度学习等技术的发展,人工智能时代正在到来,商业级的AI应用如火如荼不断深入。而人工智能的基本特征是需要收集和组合不同规模的数据、提取信息和知识进行自主学习、不同程度的自动化决策。一方面,需要海量用户数据训练出高质量的模型,另一方面,如何保证数据的安全和用户的隐私也面临巨大的挑战。本文针对用户数据用于AI模型训练的场景下的数据安全和隐私合规风险,笔者结合DPO群里专家的意见,整理该文,抛砖引玉,希望能共同探讨新技术、新应用的不同场景下如何开展数据安全和隐私合规。
一、AI模型训练场景的相关问题探讨
1、AI模型训练过程用户数据的处理方式
数据采集:通过配合式采集、获取公开数据集的方式合法采集数据。
数据清洗:对数据进行技术处理,删除无用数据、进行质量检查、统一数据格式、删除敏感信息数据脱敏、数据标注等。
数据运用:将清洗完毕的数据用于算法训练。
数据管理:针对采集的数据及清洗后的数据,通过特定格式将数据以加密存储的方式记录在存储介质上,并根据法规要求及内部数据合规制度要求进行管理。
2、关于AI模型训练数据去标识化
AI模型训练数据通常使用用户使用产品/业务过程产生的数据,原始数据一般不需要用户身份标识原始数据,因此在AI模型训练时不建议将姓名、身份证、手机号等类型数据发送给使用方或者供应商,必须使用时需要对此类数据做去标识处理。
3、关于数据用于模型训练的再次授权
个人数据用于模型训练没有豁免个人信息处理者的义务,所以仍然基于个人信息的敏感程度,获取用户的不同类别的授权,并且告知用户训练的基本逻辑,训练后个人数据的后续处理方式(删除/存留期)。但如涉及个人数据量大,无法做到对每个用户进行再次询问和获取授权。此时考虑用户原始授权的兼容性,及数据使用范围是否扩大,综合考虑是否需要再次获取授权。
二、数据合规评估要点
1、业务必要性评估
遵循非必要不外发的原则,确认业务价值和必要性,数据外发是否为必要方式。业务方主管确认是否有数据外发的替代方案,确认数据外发的必要性。
业务方需详细说明数据外发的业务逻辑和必要性,包括但不限于:业务场景描述、数据字段、渠道或方式、采取的安全控制措施、是否涉及数据交易、是否涉及用户数据或用户敏感数据、是否跨境、是否有用户授权、与数据接收方的合作协议等内容。
在此基础上,安全人员评估数据外发的业务必要性。
示例:
——在数据外发供应商,供应商用于AI模型训练场景,用于定位客户的明确的信息,例如手机号、身份证号等,不是训练数据,训练数据通常为用户产生的数据,此时如需外发客户身份证号、手机号等信息时评估结果为业务非必要。
——AI模型尽量在本地部署,避免用户数据外发。
涉及数据出境时,应按照相关法律、法规和国家标准要求处理,并且外发审批流程须升级处理。
2、数据使用的合法性评估
业务必要性评估结果通过后,需要评估数据用于AI技术或模型训练是否合法,即数据使用合法性评估。
数据接收方使用数据的目的和用途需要在用户授权相关条款说明告知,获得用户授权。
合法性评估建议由法务、安全共同评估。
3、如涉及数据外发须评估数据接收方的资质
数据发送方须对开展数据合作的供应商或合作方在合作前进行安全评估,且签署供应商保密协议。
应在保密协议或合同中,明确双方在数据安全方面的责任及义务。明确说明数据使用的限制,包括使用目的、使用后立即删除数据、处理结果仅用于某些产品、数据安全措施、以及违法协议的责任等。
示例:数据外发用于模型训练的场景,应在保密协议或合同中明确数据的使用仅限于训练,不能用于其他目的。明确模型的使用限制,数据使用结束后立即删除用户数据。
如有可能数据发送方应建立供应商或合作方诚信档案,如有违反协议行为采取相应的处罚措施。
4、数据外发共享的安全要求
在必要性、合法性、接收方资质都评估通过的情况下,数据外发或共享渠道应加密传输。
数据外发或共享时,如涉及姓名、身份证等用户唯一标识类数据,应进行去标识处理。
数据加密、去标识的加密算法应满足安全要求。
示例:身份证号经过MD5哈希处理后外发给供应商,存在客户身份证号被破解,重新定位用户的可能。
用户数据发送前,应与接收方明确告知隐私合规安全要求,明确数据期限和到期后清理删除。
如数据接收方为企业供应商或合作伙伴,客户数据进行训练后的模型,建议在合同中约束模型使用的范围。
以上是笔者总结的关于数据用于AI模型训练需要进行数据外发或共享时需要进行的合规操作或评估要点,如有遗漏或错误,还望探讨指正。(完)