中国已经拥有庞大的医疗数据基础 但医疗数据质量却让人担忧
2018-11-08
经过20多年的医疗信息数据化,中国已经拥有庞大的医疗数据基础。据 IDC显示,全球医疗数据量2013年已达到153EB,2017年超过了600EB,预计到2020年将达到2.314PB。
也正是有了医疗大数据的深厚积淀,近年来,在深度学习等AI技术兴起后,不少创业公司尝试利用自然语言理解、图像识别等技术进行临床数据的清洗。在这个过程中,人们发现,医疗数据的数量是够了,但医疗数据质量却让人担忧。
在前不久2018深圳国际BT领袖峰会上,中国医学科学院阜外医院院长胡盛寿在其主题演讲中就曾提到,现阶段医疗机构的数据合格率若能达到50%到60%就已经相当不错了。
而现阶段大部分人工智能企业在医疗数据的清洗过程阶段,依旧要请大量有经验的医生专家进行人工标注,机器辅助,以此才能建模。
到底怎样才能从一开始就产生高质量医疗数据?近日,在第80届中国国际医疗器械博览会上,浙江大学生物医学工程与仪器科学学院教授、博士生导师吕旭东,军事医学研究院研究员赵东升、深圳中兴网信科技有限公司医疗产品线总经理张思昱等人,就“如何利用开放式国际标准openEHR为建设高质量、标准化医疗大数据问题”发表了主题演讲。
医疗大数据掀起的“波浪”
不论是国家、企业还是高校,近几年,对于医疗大数据的“反响”都很大。
2015年,国务院发布了《促进大数据发展行动纲要》,其中明确了关于数据使用的总体要求。2016年6月底国务院又出台《关于促进和规范健康医疗大数据应用发展的指导意见》,将医疗大数据正式纳入国家发展,并对医疗大数据融合及共享开放建设,在医疗、医药、公共卫生、医保等方面的应用,以及使用安全保障等方面进行全面规范。2017年,国家重点企业牵头组建了三家健康大数据企业:中国健康医疗大数据产业发展集团公司、中国健康医疗大数据科技发展集团公司、中国健康医疗大数据股份有限公司。
在企业方面,随着“Al+医疗”这块蛋糕不断扩大,医疗大数据的重要性也在不断凸显,不论是药企,医疗器械厂家、生命科学企业等各方,均想在其中分一杯羹。医疗大数据的市场规模也在不断扩大。据麦肯锡预测,美国医疗大数据的市场规模为每年3000亿至4500亿美元,中国在医疗大数据领域也有上千亿元的市场规模。对此,投资方也嗅到到了商机。而智研咨询发布的报告也显示,2018年第一季度,有关医疗健康大数据领域的投资就达35起,在大健康领域占比达22.2%。
在高校方面,产研结合一直是国家是大力提倡的。今年8月,经中国卫生信息与健康医疗大数据学会批复,厦门大学成立了“厦门大学健康医疗大数据国家研究院”。10月,武汉大学又宣布成立“武汉大学健康医疗大数据国家研究院”,以促进和规范健康医疗大数据应用发展。
利用openEHR,建设高质量医疗大数据
医疗大数据的应用领域可谓广泛,包括智能辅诊、新药研发等。但不少企业在“快马加鞭”的发展过程中却发现,医疗数据质量低成了“绊脚石”。以临床医疗数据为例,出现质量低的原因主要有:
第一,医生在使用临床数据采集系统时,病历的书写标准不统一和不完整,特别是在大三甲医院,医生的日常工作量较大,很容易草率地对待电子病历的填写。
第二,在医院电子病历数据处理环节,医疗行业虽信息化程度很高,但数据化程度很低,绝大多数医院已经实现了HIS系统全覆盖,通过HIS系统可以采集到不少患者数据。但由于患者信息的底层逻辑不清晰,使得这类患者数据多数为非结构化的文档数据,没办法直接做数据分析与应用。
第三,是在数据质控分析环节,质控团队对于数据的核查不够认真。这就容易让垃圾数据通过审核,进入到医疗大数据中。
在会上,浙江大学吕旭东就曾提出要利用openEHR从源头来打造高质量医疗数据。但目前看讲,大部分人对于openEHR都比较陌生。
据显示,openEHR是由国际openEHR组织于1999年提出的开放式电子健康档案规范。openEHR规范其核心在于将医疗领域知识从具体的临床信息中分离出来,并建立了两层模型——参考模型和原型模型。参考模型是对信息系统中稳定不变的概念进行建模,定义了信息表达所需的基础数据类型和数据结构。原型模型包括原型和模板,原型通过对参考模型添加约束的方式来定义临床内容,表达领域知识;模板通过对原型的约束和定制,满足实际应用需求。
openEHR模型驱动的开放式医疗数据平台可解决不同角色对数据需求动态变化快,但各业务系统响应、修改慢的问题。此外,还可解决各类医疗业务系统不断增多,数据源持续增长但又无法及时有效集成导致成为了数据孤岛的问题。
实际上,OpenEHR在欧洲、澳洲和日本等国家地区已经得到了广泛普及,并于2008年被国际标准组织接受,发展为ISO 13606-2标准。迄今,欧洲很多国家的全国电子健康档案数据中心均采用该标准,日本2015年新启动的全国电子健康档案数据中心项目也计划采用该标准。