区块链+隐私计算将带来数据革命
2020-06-04
来源:21ic中国电子网
在大数据时代背景下,数据的价值进一步得到了体现,因此科技公司往往比较关注数据的采集,由于数据的价值与数据维度有密切的关系,所以数据采集的维度也通常比较高,这也有可能会触及到部分用户的隐私,因此在大数据时代,人们对于个人隐私数据也越来越关注。
根据IDC发布的数据,截止到2018年底,中国大数据解决方案市场软硬服总额达到388.8亿元人民币,并有望在2023年超过800亿元人民币,全球市场则将超过3000亿美元。在这种背景下,兼顾隐私保护和数据利用的计算方式就成为了企业和学界研究的重点,各国对于隐私数据的监管越严厉,隐私计算行业的发展前景就越大。
一、隐私计算的概念
隐私计算的概念最早是在2016年提出的,隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。隐私计算涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构。简单来说,隐私计算是从数据的产生、收集、保存、分析、利用、销毁等环节中对隐私进行保护的方法。
二、隐私计算的三大矛盾
隐私数据的处理过程当中还面临着三个内部矛盾:安全、效率、数据孤岛。
安全方面,目前的大数据行业主要依托于可信第三方的计算服务。这些第三方包括主要应用于科研领域的超算中心和主要应用于商业领域的数据中心。大数据行业的高性能、高投入需求让规模化、集中化的运算成为了市场主流,2011年起,我国规划建设了255个数据中心,总设计服务器规模728万台,承担了我国大部分民用数据的计算服务。但这些集中化、规模化的数据中心可能出现问题也并非危言耸听:就在今年2月,由于阿里云代码托管平台的项目权限设置存在歧义,导致开发者操作失误,造成至少40家以上企业的200多个项目代码泄露,其中涉及到万科集团、咪咕音乐、51信用卡旗下51足迹、百度无人车合作伙伴ecarx等知名企业。
效率方面,在隐私信息的生命周期中,受益于密码学发展,隐私的加密化、匿名化和脱敏技术都已经非常成熟,可以大规模应用在隐私获取、储存、流转等环节中。但大数据时代的到来,让隐私数据的处理成为了一个难题:大规模的加密数据处理一定会导致计算性能下降,而非加密数据处理又极大概率会导致隐私信息的泄露。
数据孤岛是指的是数据被保存在无法自由流动的环境之下,互相独立存储、独立维护。数据被视为数字时代的石油,每家企业都想守着自己的数据挖掘出巨大的商业价值。甚至数据隐私本身的保护服务,就蕴藏着商业利润。Gartner就预测2019年全球消费者安全软件支出将达到66亿美元。至于各地的政府部门本身,由于责任边界、数据共享的技术条件等问题,也缺乏足够的动力来推动。
以医院的病历数据举例,随着信息化的推进医院已经积累了许多临床医疗的数据。如果这些数据可以开放出来,被制药公司、学术机构进行研究,可以帮助我们更好地探索疾病和治疗手段。然而,由于隐私保护的原因,医院并不会这样做。一方面,它不具备足够的技术手段,将大量的患者信息以一种较为安全的途径传递出去。其次,它也无法保证外部机构在拿到这些数据后,会对它们做些什么。毕竟,病历信息属于个人隐私,谁都不想别人知道自己得了什么病。这听上去很合理,却是一种巨大的浪费。
三、当隐私计算遇上区块链技术
隐私计算虽然是近几年随着大数据技术的高速发展而出现的新概念,但其核心理念却是随着互联网诞生就出现的:可信计算(Trusted Computing)由TCPA(可信赖运算平台联盟,Trusted CompuTIng Platform Alliance)提出,这个术语来源于可信系统,并且有其特定含义:如果一个实体的行为总是按照预期的方式和目标进行,那它就是可信的。其主要思路是在计算机硬件平台上引入安全芯片架构,通过提供的安全特性来提高终端系统的安全性。
可信计算的反对者们认为这项技术“太中心化”了。区块链技术适用于解决信任问题,这也是区块链技术天生适合隐私计算的主要原因。虽然区块链能够解决信任的问题,但其他问题依然存在:区块链的公开透明和全节点验证,数据将流经区块链上的每个全节点,使其无法很好的处理隐私数据,大数据应用的迅猛发展对隐私保护服务请求的用户容量、并发程度和能效优化提出了极高的要求。在这个过程当中,明文大数据分析会导致隐私泄露,而将数据加密之后,大规模数据密态化又会极大的影响分析效率。
四、Layer-2 隐私计算的破局法则
区块链行业中 Layer-2 的关键特征是计算被移除至链下,以实现隐私或节省计算资源的目的。大数据行业中的计算一直有巨规模、多样化、高增速的特征,将所有数据上链进行计算,一方面让储存、通信成本急剧上升,另一方面也使隐私销毁无法实现。因此,Layer-2 隐私计算的特征是,链上仅仅作为账本,对数据资产实现确权和记录,实际上的计算全部发生在链下。链下计算的过程中,为避免数据泄露,计算过程往往会发生在 TEE(可信硬件)中,或采用 MPC 的方式进行计算。
基于 TEE(可信硬件)的可信计算协议(Trusted CompuTIng Protocol,简称 TCP)。可信执行环境 (TEE) 是 Global Platform (GP) 提出的概念。是移动设备主处理器上的一个安全区域,其可以保证加载到该环境内部的代码和数据的安全性、机密性以及完整性。TEE 提供一个隔离的执行环境,提供的安全特征包含:隔离执行、可信应用的完整性、可信数据的机密性、安全存储等。该技术的核心是企业和个人可以把数据处理模型部署在区块链上,在链下,例如 Intel SGX 可信执行环境中处理隐私数据,最终把可验证结果存储到链上并更新状态。
基于 MPC(安全多方计算,Secure MulTI-Party ComputaTIon)的方式。MPC是一种在无可信第三方的情况下,安全地计算一个约定函数的方式,计算参与方只需参与计算协议,无需依赖第三方就能完成数据计算,并且各参与方拿到计算结果后也无法推断出原始数据。MPC当前问题主要在于性能和效率,大部分现有的Demo实现都是基于semi-honest模型,更强的malicious-security模型性能极差;另外MPC是交互式的,即多轮迭代,导致大量网络带宽的需求,同时需要OT,会对性能造成很大影响。
就基于 TEE 方案的项目而言,由于所有计算过程都在链下的可信任环境中,所以不存在密态数据的计算效率问题:加密数据进入可信硬件中进行解密、计算、加密,最终得到加密数据,形成一个黑箱,在保证安全的同时保证了效率。
五、区块链+隐私计算带来的数据革命
过去人们的隐私信息被严重泄露,主要原因还是信息保管方式不当,比如学校,公司,宾馆,招聘网站,旅游景点等,这些地方不断地要你填写你的各种信息,但是又不好好保管。
有了隐私计算+区块链技术就不一样了。你可以选择把你的信息以加密方式都存在区块链上,当你需要用你的信息去填各种表格的时候,可以直接用加密方式提供。对方拿到了加密后的个人信息,可以直接拿到区块链上去验证。这样对方既可以确保你信息的真实性又免于了直接拿到你的信息。
举个例子:你叫李红,身份证号是 310101199708311528,人长得温婉可人。你存在区块链上的信息可能成为了 il99dskkdsf3234dsfs9893jdsjjadsf 等一串长长的密文,人脸像也被哈希加密。当你入住酒店的时候,你无需出示你的身份证,只需要把密文 il99dskkdsf3234dsfs9893jdsjjadsf 发给需要你信息的酒店,秘钥只有你自己知道。酒店可以通过智能AI对你进行人脸识别,然后你的数据会在一个可信的计算环境中和你链上的加密人脸数据进行比对,确定你的入住身份。同时也会比较你的身份密文数据和公安系统通缉要犯库中的数据密文,如果匹配不成功,那么你就 OK 了,可以入住。整个过程中,酒店方不会知道你的姓名和住址,但是又能够确认是你本人,而且不是通缉要犯,没用假身份证,让你可以办理入住。
除此之外,现在进入到了大数据和人工智那能时代。很多大数据需要用用户的各种信息来统计,人工智能也要用用户信息来训练。你也可以有选择地卖出你的部分个人信息,作为回报。大数据公司和人工智能训练实验室会付给你相应的价格作为回报。
再举个例子,某家电商想用用户数据做一个推荐算法,又没办法拿到淘宝或者京东的用户数据。直接买,又担心有人刷单薅羊毛。但是如果接入了区块链。那我可以只卖出我的淘宝购物数据和京东购物数据,而不提供出我的快递地址,姓名,支付宝号等。因为都记在区块链上,我既没法办法把相同数据卖给这家电商两次,又没法卖给电商假数据。作为回报,店家给我支付酬劳,并且获了真正的数据来帮助他自己完善算法,一举两得。
每个人的隐私信息被保护地更好了,而且获得了收益。但是同时,公司和机构又得到了更精准,更有效的消息。这就是隐私计算+区块链的魅力。