《电子技术应用》
您所在的位置:首页 > 通信与网络 > 业界动态 > 数据安全:数据开放共享面临的问题

数据安全:数据开放共享面临的问题

2021-08-08
来源:计算机与网络安全
关键词: 数据 开放共享

  目前无论是国家顶层设计层面,还是具体实操层面,数据开放共享都取得了比较显著的成效,但是我们也必须看到,由于一系列因素的掣肘,无论是政府之间的数据开放共享,还是政府与企业之间的数据开放共享,其进展都没有设想的那么尽如人意。与主要发达国家相比,我国政府数据开放共享的水平仍然较低。根据Data.gov网站的《全球开放数据深度报告》,我国得分为11.8分,而美国得分为93.4分,差距极大。为何会出现这样的情况?主要还是无意愿、无胆量、无本领造成的。

  1. 无意愿开放共享

  不同于以往任何时候,我们正生活在一个万事万物高速发展的时代,而大数据正是催生这种时代特征的根本动力。大数据研究专家维克托·迈尔-舍恩伯格曾经说过:“世界的本质是数据。”在他看来,认识大数据之前,世界原本就是一个数据时代;认识大数据之后,世界不可避免地分为大数据时代、小数据时代。

  从政府的角度来看,当前各级各类政府部门及公共机构掌握的政务数据是数量最庞大、价值密度最高的数据资源,也正是所谓的大数据,对于推动经济发展、完善社会治理、提升政府服务和监管能力具有重要价值。目前,在政府的公共管理过程中,从定性决策到量化决策已是必然趋势。其中,数据是决策的基础。如今的数据分析已与传统基于抽样方法统计的数据不同,基本可以不经过任何抽样而直接对全样本的复杂数据进行实时分析处理,使政府决策所依据的数据资料更加全面,提高决策的针对性、科学性和时效性。

  与政府相比,企业产生的主要是小数据,但是小数据也有大作用。如今,因实施数字化转型取得成功的案例比比皆是。以前,领导层确定企业决策和战略实施,主要依靠自身的决策经验和信息整合能力。而现在高性能并行的计算机处理技术通过处理海量数据集推导出科学的战略决策,能大大提升领导决策的精准度和效率,同时也畅通了内部信息的沟通渠道,提高了企业的运转效率。更重要的是通过帮助营销部门从繁杂庞大的数据中挖掘、分析用户的行为习惯和喜好,研发出更符合用户偏好的产品和服务,最终也极大提高了商业利益。

  除此之外,公共领域利用大数据造福人类的事件也是不胜枚举。例如,大数据曾被洛杉矶警察局和加利福尼亚大学合作用于预测犯罪的发生;麻省理工学院利用手机定位数据和交通数据建立城市规划;谷歌流感趋势利用搜索关键词预测禽流感的散布;气象局通过整理近期的气象情况和卫星云图,更加精确地判断未来的天气状况。

  因此,大数据时代,无论是大数据还是小数据,里面都蕴含了无穷的宝藏。但是有一点我们必须清楚,数据本身并不产生价值,如何分析和利用大数据对业务、对人类产生帮助,才是它的价值所在。

  然而,并非所有人都能认识到数据的价值在于利用、流动,在于整合分析挖掘。这种思维方式无论在政府、企业,还是其他机构,都大有人在。他们往往将数据束之高阁,不加任何开发和利用。由于数据的一个重要特性就是其价值具有很强的时效性,过了一定的时间,价值就可能贬低甚至消失,因此将数据束之高阁是数据开放共享过程中的大碍。

  对于数据的价值,有部分人没有认识到,而有部分人了解得非常清楚。正因为太了解,所以又出现了一种在数据开放共享的过程中将数据作为利益、权力或私有财产独享的心理。

  2018年7月,国务院印发了《关于加快推进全国一体化在线政务服务平台建设的指导意见》(简称《指导意见》),在“统一数据开放共享”中提到:国家政务服务平台充分利用国家人口、法人、信用、地理信息等基础资源库,对接国务院部门垂直业务办理系统,满足政务服务数据开放共享需求;发挥国家数据开放共享交换平台作为国家政务服务平台基础设施和数据交换通道的作用,对于各省(自治区、直辖市)和国务院有关部门提出的政务服务数据开放共享需求,由国家政务服务平台统一受理和提供服务,并通过国家数据开放共享交换平台交换数据;整合市场监管相关数据资源,推动事中事后监管信息与政务服务深度融合、“一网通享” ;建设国家政务服务平台数据资源中心,汇聚各地区和国务院有关部门政务服务数据,积极运用大数据、人工智能等新技术,开展全国政务服务态势分析,为提升政务服务质量提供大数据支撑。《指导意见》对政务信息共享提出了科学的目标和要求,数据应用开放的关键是打破数据孤岛,让数据互联互通,达成数据和信息共享。

  但是,当前我国政府信息化建设依然存在各自为政、重复建设的问题,部门条块分割比较严重,各部门之间沟通困难。出于权限和利益问题的考虑,很多单位将政府数据资源部门化、专属化、利益化,存在所谓“数据话语权”思想,对数据开放共享存在抵触情绪及推诿应付现象,导致“数据割据”问题严重。例如,我们每个公民的个体信息分别掌握在工商部门、银行、保险、公安、医院、社保、运营商等不同的机构手里,但真要打通和融合各个部门掌握的数据却是很困难的事情。

  数据割据的现象不仅存在于政府部门之间,当前我国一些企业之间的此类现象也非常严重。我国互联网巨头都掌握了海量的数据,像百度、腾讯、阿里巴巴三大互联网公司分别掌握了搜索、社交和消费数据。如果三方数据能汇聚在一起,就可拼凑出一个完整的互联网数据图谱,但事实往往是互联网企业之间的竞争多于合作。势均力敌的巨头之间尚且如此,互联网市场的中小型企业对巨头所掌握的数据更是望尘莫及,因此很难在现有市场格局中取得突破,这种现状进一步加剧了巨头割据的现象。

  2. 无胆量开放共享

  2018年3月25日,1.5亿条来自美国著名运动装备品牌安德玛(Under Armour)的用户数据遭泄露,这些数据包括用户名、邮箱地址、密码等隐私信息。同年,法国工程咨询公司Ingérop也遭遇了网络攻击,超过1万份与法国核电站、监狱及电车网络相关的机密文件从该公司的服务器上被窃取。

  这些都是明网上公开的数据泄露事件,暗网上被窃取的数据交易更是不胜枚举。2019年1月,360安全监测与响应中心发布了一篇关于“2018年暗网非法数据交易总结”的报告,是基于从某暗网交易平台抽样收录不法分子发布的1000条数据交易信息归纳出的情况,其中记录的暗网重大数据交易事件涉及军事、政府、互联网等多个领域。例如,在政治方面,Anomali Labs和 Intel 471的安全研究人员第一次追踪到有人在暗网兜售2018年美国选民登记记录。这些选民数据来自美国19个州,被售卖的信息包含选民的全名、电话号码、真实地址、历史投票和其他暂未明确的投票数据。每个选民的信息以150美元~12500美元的价格出售。售卖者还声称,一旦购买这些数据,他们将每周都为购买者提供定期的更新。

  在互联网领域,某动漫网站发布公告称近千万条用户数据被盗,被盗的数据包括用户的ID、昵称和密码等。而这些数据早在2019年3月8日就已经在暗网被出售。出售数据被分为三组,其中一组为800万条该动漫网站数据以12000元,即1元800条的价格出售;而另外两组数据也分别达到了70万条和600万条,以7000元和12000元的价格出售。这些被出售的数据均包含用户名、手机号码和密码,且均为一手数据,整份价格约为0.49个比特币。

  在酒店及快递行业,某集团旗下多家连锁酒店的数据在中文暗网市场交易网站出售。卖家声称,这些数据涉及多家知名酒店,共1.3亿人的个人信息。出售的数据包含三个部分:(1)官网的注册资料,如姓名、手机号、邮箱、身份证号和登录密码等;(2)酒店入住时登记的登录信息,包含姓名、身份证、家庭住址、生日和内部ID; (3)酒店开房记录,包含同房间关联号、姓名、卡号、手机号、邮箱、入住时间及离开时间等。

  无论是一些大型工业互联网的安全事件,还是暗网上令人触目惊心的数据交易,都只是数据安全领域的冰山一角。近年来,数据安全问题频频发生,大到给国家安全和经济社会发展造成严重的潜在危害,小到给公民个人造成巨大的经济损失和精神伤害。正是由于数据在收集、存储、使用、交换及销毁等各个环节都存在极大的安全隐患,很多政府部门和大型互联网企业在数据开放共享中都心存忧虑,担心因数据泄露或遭黑客攻击而带来严重后果,不敢推动数据开放共享进程。

  除了对数据泄露等安全事件的恐惧,还有些出于对数据伦理的考虑。2018年10月24日,科技部官网公布了对复旦大学附属华山医院、华大基因、药明康德、昆皓睿诚、厦门艾德生物、阿斯利康6家单位的行政处罚。虽然行政处罚的时间各不相同,但处罚的原因一致,都是因为违反《人类遗传资源管理暂行办法》(国办发〔1998〕36号)、《中华人民共和国行政处罚法》等有关规定,违规采集、收集、买卖、出口、出境人类遗传资源。从网上公开的材料来看,涉事单位阿斯利康未经许可将已获批项目的剩余样本转运至厦门艾德生物医药科技股份有限公司和昆皓睿诚医药研发(北京)有限公司,开展超出审批范围的科研活动;厦门艾德未经许可接收阿斯利康投资30管样本,拟用于试剂盒研发相关活动;而昆皓睿诚则未经许可接收阿斯利康567管样本并保存。

  值得一提的是,这是科技部首次公开涉及人类遗传资源的行政处罚。实际上,针对此次“基因信息违法出境”事件,在《人类遗传资源管理暂行办法》《专利法》《网络安全法》和《个人信息和重要数据出境安全评估办法》,以及《刑法修正案》和《民法总则》等法律法规中均能找到处罚依据。这个案件折射出的不仅仅是如何把握数据跨境流动的安全性问题,还有数据伦理问题。

  大数据杀熟、动态定价等现象,数据本身是中立的,但与数据相关的技术和算法不一定是中立的,甚至带有人类认识的局限性。因此,数据在利用过程中就会出现不中立甚至违背伦理的现象。尤其是针对上述基因信息等带有人类生物特征的数据,更是一个国家、一国公民所不可触碰的底线资源。再以无人驾驶为例,人类开车在正常行驶过程中遇到有人突然横穿马路时是决定直接撞过去还是紧急刹车,都包含对自身伦理道德的拷问,其决定可能是自私的,也可能是无私的,但在无人驾驶时,汽车只是接收一行行冷冰冰的代码指令,然后做出选择。所以,这也涉及数据的道德和伦理问题。那么,这些数据的开放共享牵扯到很多既有挑战性又很复杂的问题,均会加重数据主体在开放共享数据时的顾虑。

  更有甚者,有时开放数据还会惹来麻烦,尤其由于数据质量问题招来的质疑。

  对于一个国家来说,统计数据是政府数据的主要来源。改革开放以来,我国政府统计进行了一系列改革,政府统计数据正在朝着越来越全面客观反映国家经济社会发展情况的方向发展。但我们也要看到,统计工作是一个比较复杂的系统工程,需要多个部门加强配合协调,按计划进行统计信息的收集汇总和分析,才能形成统计数据分析结论。只要其中一个环节出现问题或失误,就会直接导致统计数据的准确性下降。此外,缺乏明确的解释和统一的统计口径也会导致统计数据混乱。很多数据即使收集起来也无法进行对比分析和统一转化,因而直接影响了政府统计数据的全面性、真实性和准确性,损害了政府公信力和权威形象。因此,有些部门和单位为了不承担数据开放共享后因数据质量存在问题所带来的麻烦,而宁可不开放共享。

  除了数据质量方面容易让人产生顾虑,还有些数据造假行为更是成了数据开放共享过程中的“拦虎路”。2018年的某市空气监测数据造假案引起了广泛关注。2017年1月,某市政府因大气环境质量持续恶化、二氧化硫浓度长时间“爆表”问题被原环境保护部约谈,并同步暂停新增大气污染物排放项目的环评审批。2018年3月底,生态环境部检查发现,该市的6个国控空气自动监测站部分监测数据异常,采样系统受到人为干扰。经调查,犯罪嫌疑人通过堵塞采样头、向监测设备洒水等方式,对全市6个国控空气自动监测站实施干扰近百次,导致监测数据严重失真达53次。最终,涉案人员均被判处有期徒刑。

  试想,如果这样的假数据被开放共享移作他用,将会带来何种负面影响?!但是,当前此类问题并不鲜见。

  在互联网行业,数据造假更是随处可见。2018年11月,一篇自媒体文章不仅引起了公众对旅游社区平台马蜂窝点评内容抄袭的质疑,也捅开了互联网行业数据造假的“马蜂窝”。随后,有业内人士指出,从最早的电商刷单、刷好评,到之后的微信公众号买粉、刷阅读量,再到网络直播平台买流量、App机器人用户充数据,数据造假充斥各个角落。尽管数据造假的手段多种多样,但背后的目的都是一样的,即造假能够降低成本、提高商业利益。然而,这样的数据如果被开放共享,对于数据使用方来说真的是百害而无一利。

  3. 无本领开放共享

  大数据的价值在于如何通过分析繁复的数据得出预测性结论,并最终利用它来实现某种目的。其中,对数据的分析和处理是数据使用者的核心竞争力。然而,对数据进行挖掘和分析既包含统计、在线分析处理、机器学习等学科知识,也利用了人工智能、模式识别和算法等思想。同时,数据挖掘还接纳入了包括最优化、进化计算、信息论和可视化等其他领域的思维方式。可以说,数据的利用是一项专业性强、难度大的技术活。

  与数据的利用相比,数据的开放共享更是不易。从技术角度看,当前数据难以开放共享的根本原因在于当前信息系统设计的理论体系有问题。当前设计各种信息系统的特点是数据及数据结构完全由设计人员自己决定,因此各信息系统中的数据完全是异构的,要实现信息系统之间的互联互通,必须通过转换数据结构的方式实现。从这个意义来说,很多数据主体不具备实现开放共享的技能,无法开放共享。

  此外,目前关于数据开放共享的法律法规也十分匮乏。关于数据开放共享,目前国家和地方层面出台了一些管理制度,但是主要针对政府间行为。

  国家层面

  2016年9月发布的《政务信息资源共享管理暂行办法》规定,政务信息资源按共享类型分为无条件共享、有条件共享、不予共享等三种。可提供给所有政务部门共享使用的政务信息资源,属于无条件共享类;可提供给相关政务部门共享使用,或仅能够部分提供给所有政务部门共享使用的政务信息资源,属于有条件共享类;不宜提供给其他政务部门共享使用的政务信息资源,属于不予共享类。

  2018年3月发布的《科学数据管理办法》在有关科学数据的共享与利用中提到以下几点。

  (1)政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享,畅通科学数据军民共享渠道。国家法律法规有特殊规定的除外。

  (2)法人单位要对科学数据进行分级分类,明确科学数据的密级和保密期限、开放条件、开放对象和审核程序等,按要求公布科学数据开放目录,通过在线下载、离线共享或定制服务等方式向社会开放共享。

  (3)对于政府决策、公共安全、国防建设、环境保护、防灾减灾、公益性科学研究等需要使用科学数据的,法人单位应当无偿提供;确需收费的,应按照规定程序和非营利原则制定合理的收费标准,向社会公布并接受监督。

  (4)对于因经营性活动需要使用科学数据的,当事人双方应当签订有偿服务合同,明确双方的权利和义务。

  地方层面

  2017年5月开始施行的《贵阳市政府数据共享开放条例》将政府数据开放共享工作、经费、目标考核纳入法制化管理,对各级部门的相应职责进行了具体规定和明确;规定行政机关通过共享平台获取的文书类、证照类、合同类政府数据与纸质文书原件具有同等效力,可以作为行政管理、服务和执法的依据。在政府数据开放共享中,政府数据提供机关不同意开放政府数据的要说明理由并限时答复。尤其是在政府数据开放中,除了规定不同意开放要说明理由以外,还规定了对政府数据提供机关的答复有异议的可以向市大数据行政主管部门提出复核申请,大数据行政主管部门应当限时反馈复核结果。

  不过,这些政策文件主要还是从宏观和顶层设计的角度对政府数据开放共享进行规定,目前我国还没有哪部法律法规对数据开放共享的原则、数据分类和开放边界、数据格式、质量标准、互操作性等做出规范。而且,数据在采集、传输、存储、处理、交换甚至销毁等各个阶段,其所有者和使用者往往都不同,存在数据所有权和使用权分离的情况,很容易导致数据滥用、数据权属不明确以及无法进行数据定价等问题。针对这些情况,现阶段都没有明确的法规予以指导和规范,所以导致数据开放共享难以操作,出现问题也找不到相应的法律依据加以解决。




电子技术图片.png

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。