文献标识码: A
DOI:10.16157/j.issn.0258-7998.2018.S1.032
0 引言
数据安全是信息安全的关键环节。在当今大数据技术和互联网飞速发展的时代,数据是推动国家经济与社会发展的重要战略资源。在电力行业领域,随着信息技术的深入应用,尤其是用电采集、SCADA等系统的应用,业务数据量呈爆炸式增长,数据中蕴藏的巨大商业价值被逐步挖掘出来,同时也带来了巨大的安全挑战——个人隐私信息的保护。2017年6月,《中华人民共和国网络安全法》正式实施,其中对个人信息的保护做了明确规定,网络运营者应当采取技术措施和其他必要措施,确保其收集的个人信息安全,防止信息泄露、毁损、丢失。
由于非线性数据量巨大,数据关系错综复杂,传统的安全手段难以提供完善的保障,攻击者可通过大数据技术还原信息、窃取隐私。因此,针对大数据应用建设过程中的安全问题,根据实际情况制定特有的数据脱敏规则加以保障,对提高电力大数据安全应用具有重要意义。
1 电力大数据脱敏策略研究
电力大数据的应用场景主要有重过载预测、日用电负荷预测、设备事故关联分析、精准客户服务、业务工单分析等,涉及用户数据、工单数据、流程数据、用电数据、设备数据等。为了保护客户隐私数据,提高电力信息安全,需要对重要数据进行脱敏。
数据脱敏又叫数据漂白或者数据去隐私化,通过一定的规则,对某些重要信息进行数据的变形,以实现对重要隐私数据的可靠保护。比如个人身份识别数据(personal identifiable data)、个人重要数据(personal sensitive data)和商业重要数据等,必须经过脱敏后才能使用,尤其是在大数据应用的开发测试阶段。经过数据脱敏后的数据,就可以在规定的授权环境中使用。
在电力行业中,重要数据主要包括两方面,一是工作中各业务系统的运行数据,包括内部邮件、组织架构、业务流程数据、各类工单数据、现场工作票数据、各类电表仪器实时量测数据等;二是客户的个人信息,包括个人客户的姓名、性别、年龄、住址、手机号、身份证号、银行账号等,单位客户的名称、地址、行业等。
本文通过研究一种自适用于电力大数据应用的数据脱敏手段,自适应于电力大数据场景中的数据脱敏分类,精准定位电力业务重要数据,从而实现电力业务数据的多层次安全防护。
2 重点内容及创新点
电力大数据脱敏的最大难点在于电力大数据不同业务场景下的数据安全(隐私保护)和数据信息价值两者之间的平衡,因此,电力大数据应用建设中的重要数据保护需要在保护数据安全的基础上更好地展现大数据的业务应用价值,从而为电力事业提供更高水平的服务。
2.1 脱敏规则遵循原则
(1)数据可用性需求:要求脱敏后的数据能够满足各业务部门的大数据应用需求。如分析用户用电习惯,需要保留完整户号信息、用户电量信息,户号作为用户在电力系统里的唯一标记,可在电力系统里作为基础查询标识。而用户姓名、性别、地址、联系方式可以隐私数据可以脱敏展示。
(2)数据的逻辑关联:为满足大数据的分析逻辑特征、统计分布特征,对于复杂的业务,需要保留各种数据之间的关联性。如工单数据分析,需要保留工单信息、客户信息、内部流程信息等数据之间的关联性。
(3)数据可重现性:采用相同规则和参数配置,相同源数据脱敏后的数据必须保持一致。
(4)脱敏规则可配置:可以结合应用需求和隐私保护的需要,动态配置脱敏规则及相关处理方法,从而满足各种不同业务应用的需要。
2.2 数据脱敏分类分级方法
在电力行业的大数据应用建设过程中,因为数据的多样性以及生产、营销等应用各自的分析侧重点不同,对数据脱敏细分提出了更高要求。基于电力大数据场景数据安全(隐私保护)和数据信息价值的共同追求,遵循以上数据脱敏规则,结合电网业务数据的实际情况,根据不同的应用场景,按用户编号、客户姓名、电话号码、用电地址、身份证号等不同类别进行数据脱敏,并将数据脱敏工作按不同的数据类型分为三个等级,从一级到三级安全等级依次降低,从而实现了基于多层次安全等级防护的电力大数据应用建设。
下面就用户编号、客户姓名、电话号码、用电地址、身份证号等不同类别数据进行等级划分,具体举例说明:
2.3 建立电力大数据脱敏管理平台
电力大数据脱敏管理平台及应用架构分别如图1、图2所示。
根据数据脱敏的规则以及本文提出的分类分级脱敏的设定,设计适用于电力大数据的数据脱敏机制:
(1)源数据层:电力大数据来源于电力系统内部各系统的数据,主要包括用户数据、工单数据、流程数据、用电数据、设备数据等。
(2)脱敏处理:根据脱敏规则选取相应的脱敏算法,将原始数据进行拆分和脱敏存储,并遵循设定的分级脱敏规则,对于重要数据进行分级脱敏并分别存储,形成数据中间库。
(3)脱敏中间库存储:中间库重要数据采用单独字段分级脱敏存储,保证数据存储的安全性。同时中间库的应用也有助于提高系统的工作效率。
(4)脱敏数据服务:根据应用场景需求分析所要展示的数据及数据之间的关联特性,并分析数据是否需要脱敏,自动识别脱敏的级别,从中间库提取相关数据。如张三丰->张先生->张**->张*,某某某指挥部-> ***。系统同时进行数据的校验,符合数据安全规则的交由应用层进行相关展示。
(5)电力大数据应用:根据各业务部门的需求,电力大数据的应用场景主要有业务工单分析、精准客户服务、用电行为分析、设备故障管理分析、用电负荷预测。
采用本文的数据脱敏机制,在保证数据安全的基础上,根据数据重要度不同的分级制度能够更好地满足业务场景应用。如进行业务工单的重复致电分析,需要展示的数据是电话号码、户号、姓名、地址、致电次数、关联工单等。采用本方法的分级脱敏规则,电话号码作为展示主体,采用三级脱敏,保留主要特征。户号作为系统唯一标记不脱敏。用户姓名、身份证、地址信息采用二级脱敏,保证用户隐私。即保证了大数据应用的直观展示,同时业务部门在系统中有据可查、有效处理,又保护了用户的隐私,避免了数据安全风险。
2.4 应用实例介绍
以营销服务工单热词分析场景为例,涉及的业务数据有全量工单数据、客户基本信息数据、接入点信息数据、接入点计量表信息数据、计量表读数数据、气象数据,这些原始数据有数据量大、数据形态多样性等特点,具体情况如下表:
3 结论
数据脱敏是电力行业信息化应用中的一个环节,现有的脱敏方法既要满足大数据价值分析应用的需要,也要遵从整体信息安全治理的要求。本文研究了电力大数据典型应用场景下的数据脱敏分级分类方法,通过电力大数据脱敏管理平台实现电力业务数据内容、性质及应用场景的自适应脱敏,分级分类脱敏,并对数据脱敏的框架提出建议及具体的脱敏执行方案,在保护用户隐私、保证数据安全的前提下,满足各业务单位、数据归口单位、科技信息等部门大数据成果应用需求。
参考文献
[1] 张沛,杨华飞,许元斌.电力大数据及其在电网公司的应用[J].中国电机工程学报,2014,34(增刊):85-92.
[2] 彭小圣,邓迪元,程时杰,等.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015,34(3):503-511.
[3] 张沛,和怡,张大海,等.电力大数据应用的判断原则[J].电力建设,2017,38(5):85-90.
[4] Datamasker. Data masking:what you need to know[J].A Net 2000 Ltd.White Paper, 2016.
[5] CHOUDRY B. Masking the data on cloud[J].International Journal of Advances in Computing, 2012,1(04):388—390.
[6] CASTELLANOS M, Zhang BaimenezI,et al. Data desensitization of customer data for use in optimizer performance experiments[M].IEEE International Conference on Data Engineering, 2010:1081-1092.
[7] Gartner.Gartner 2014 Magic Quadrant Data Masking Report[R].2015.
[8] 王继业.智能电网大数据[M].北京:中国电力出版社.
作者信息:
黄凌宇1,丛中方1,赵 城2,叶红星2,张豹锋2
(1. 山东文登抽水蓄能有限公司,山东 威海264200;2. 北京易用视点科技有限公司,北京100144)