医疗AI时代下,健康大数据要怎么用
2020-01-06
来源:电子发烧友
智慧医院需要持续筑牢安全防护墙,但并不意味着要把安全防护墙加高到滴水不进、滴水不出的地步。正如国家卫生健康委规划发展和信息司毛群安司长所说,未来医院的边界会越来越模糊、协作更加频繁,传统的医疗业务流程可能嵌入若干大数据、智能应用,实现医患互动、临床协作、医教研的互动。
同样,为增进与卫生健康部门、公立医院的互信,医疗大数据、人工智能行业需要摆脱对医院大数据一味的渴求和索取,从注重数据数量,向注重数据质量和数据绩效转变。针对公民个人数据采集,被称为“欧盟数据宪章”的《一般数据保护条例》(GDPR)提出了“最小可用原则”,即:个人数据的处理应当是为了实现数据处理目的而适当的、相关的和必要的。因此,数据开发方、数据使用方应当确保数据滥用,或者被低效利用。
为保护患者个人的数据隐私,经过清洗后,被用于二次开发的患者数据集中,患者个人信息既不可被识别,也不可被逆转(即逆向破解,将脱敏数据还原为原始数据)。尽管主流医疗大数据、人工智能企业普遍拥有成熟的数据脱敏技术,但随着数据量累计、数据交叉比对持续、新型算法模型被研发,脱敏数据被逆向破解的风险将持续加大。因此,“最小可用”原则是保护患者数据隐私的最后一道防线。
随着技术革新,传统深度学习也许将不再过度依赖数据量进行算法训练。作为新型神经网络的一个分支,生成对抗网络(GAN)通过分离出生成网络、鉴别网络,犹如一个警察和假钞贩子之间的对抗,警察对假钞的鉴别能力不断提高,假钞贩子“以假乱真”能力也不断提高,最终机器对医学影像的判断准确性将趋于甚至超过人类。更重要的是,生成对抗网络仅需要少量影像数据进行算法训练,且无需人工参与标注,从而符合“最小可用”原则。
国家卫生健康委统计信息中心张学高主任在2019CHIMA大会开幕式上表示,当前,我国医院信息化在数据层面面临以下问题:一是数据质量普遍不高,缺乏数据质量的保障机制;二是对已有标准的应用和执行滞后;三是术语类标准、新技术类标准、安全类标准不健全。
无论是在信息化时代、互联网时代、大数据时代还是人工智能时代,数据质量始终是灵魂。对于医院信息系统(HIS)、云平台、AI算法这些数据“吞吐大户”,我们既不能让它们因“上顿不接下顿”而“营养不良”,也不能喂食“过期变质食品”而导致其“食品中毒”,甚至对整个“食品工业”丧失信心并引发行业地震。
公立医院是医疗卫生服务主战场,也是数据治理的源头。“水源”一旦被严重污染,公共平台归集数据后再进行治理,往往回天乏力。新近出版的《医院数据治理:框架、技术与实现》一书,标志着统计信息中心首次提出医院数据治理的理念,梳理了医院数据治理的实施重点和路径,结合国家级平台建设项目实施等相关实践,应对服务创新、数据质量、开放共享、安全合规等方面存在挑战。该书和笔者的一线调研呈现出若干迫切问题:
(1)数据治理重数量轻质量:一些地方的全民健康信息化平台建设先抓数据汇集,再把好质量关,缺乏数据上传审查机制、数据质量预警机制,未经验证、未经处理的健康大数据只能是“一般垃圾”甚至是“有害垃圾”;(2)数据治理重技术轻规制:医院数据治理仅停留在技术框架层面,在院内尚未成立数据治理管理机构,在院外尚未建立第三方数据治理评估体系;(3)数据治理重工程轻绩效:把数据治理狭隘、静态地理解为工程项目,主管部门数据规则跟不上,承建方运营维护跟不上,医疗机构和社会各界对治理绩效的获得感不强。
在数据输入端,我国尚未对健康大数据(尤其是医院大数据)启动国家立法,“健康医疗大数据”相关法规停留在部门规章层面,且仍处在试行期,且对健康大数据的分类、分级、分步共享开放的准则,及其易于操作的流程,尚未作出具体规定。在算法输出端,我国对医疗人工智能的算法模型的著作权尚未得到法律保障。我国知识产权的主要判定依据是《著作权法实施条例》,该条例的修正案早在2013年3月1日就开始施行,赶不上医疗人工智能技术发展的新趋势。
综上所述,立法位阶不高、法条不够明晰、法律约束力不强,导致一些地方、一些医院的数据治理规则出现较大随意性,容易出现因时而异(如:人工智能进入某个“风口期”)、因事而异(如:医院自发提出科研合作需求)、因人而异(如:持开放态度的卫健委领导、医院领导、信息办主任)。制度刚性缺失,给医疗人工智能企业的数据可用性、低成本带来巨大挑战,也导致算法模型无法根据“额头出汗原则”的著作权原则归研发团队所有,无法对医疗人工智能研发提供稳定盈利预期、研发激励机制。