UCloud医疗综合事业线技术副总王彬:基于医疗云的安全数据流通
由艾媒咨询主办的2020全球未来科技大会于5月28日18:30正式开播。大会以“科技向春•万物复兴”为主题,分设“新技术、新产品”和“新模式、新业态”两大专场,聚焦在线教育、在线办公、在线医疗、人脸技术、云计算、机器人等前沿领域,汇聚各行业精英领袖共同解锁科技的力量,探寻全球经济新的增长动能和发展路径。
在“新技术·新产品”专场上,UCloud医疗综合事业线技术副总王彬发表了《基于医疗云的安全数据流通》主题演讲。
UCloud医疗综合事业线技术副总王彬表示,数据是整个医疗行业中的重要资源、同时也对医院构成了非常大的挑战,在疫情中患者数据的应用问题逐渐凸显。基于此,UCloud提出了一个叫医疗数据安全流通的解决方案和场景,解决了数据安全使用的方式、合规性与流通性的问题,它提供了流通管理平台、医疗云平台、强要求下的运营和国产化安全硬件,从四位一体的角度来保证数据安全。而后,王彬先生从多方关系和技术角度,详细介绍了数据流通平台的设计与运营。
以下,为主办方官方整理的UCloud医疗综合事业线技术副总王彬演讲全文实录(部分内容有删减):
大家好,我是来自UCloud医疗的王彬,今天我给大家带来的内容分享是《基于医疗云的数据安全流通》。
在整个医疗行业中,数据是一个非常重要的环节,但其实数据对于医院有非常大的危险性和挑战。在我们现在看到的一些数据中,部分信息是通过Greenbone Networks发现的,其实在全球有超过7.37亿的影像数据,包括涉及到2000万人的患者数据,都存在过泄漏的情况。同时在整个互联网当中,诸如一些大型的互联网公司,它本身也有一些“夜莺计划”,会有意识地去采集一些医疗相关的隐私数据,而这些数据本身其实是在患者不知情的情况下面就被采集了,同时医院的数据存在主动获取或者说被动勒索的情况。
目前国内医疗行业对于数据的保存和存储,其实没有一个共识和一个标准。通常情况下,医院会规划一张所谓的内网,通过把数据放在内网当中来保障整个的数据安全。数据放在内网虽然是安全了,但是这个数据本身不出院、不具备流通性,所以给数据在使用和应用的过程中带来了非常大的困难。
拿这次疫情来说,其实有非常多的驰援武汉的医护人员到了现场以后发现两眼一抹黑,因为对于现在在就诊过程当中的患者,他本身的数据情况以及他以前历史的病人情况,去驰援的医务人员是不清楚、不了解的,所以就导致了在所有的数据的流通环节中,在医院内其实也没有很好地流通起来。
正是因为这样的一些问题,UCloud提出了“医疗数据安全流通的解决方案”。它解决什么样的问题?
首先是数据的安全使用问题,这里面包括了数据本身的安全性。我们知道,医疗数据本身有非常多的隐私和病患信息,对于这个医疗数据而言有非常大的价值。举个例子,医患的数据通常都会带有身份证,包括个人的一些罕见病的疾病等等一些数据,这些数据对于药企、对于黑产,其实都有非常大的价值,医疗数据本身就有很大的价值。
但是,因为医疗数据其实关乎到人口的健康,包括疾病史、病历等等的一些情况。在这种多维度的场景当中,对于数据安全本身的要求其实是不同的,有一些数据是可以开放的,有一些数据是需要严格保存的。举个例子,就是像一些健康数据,它可能是可以通过开放的形态,把个人个体的健康信息做信息的共享,这其实有利于整个社会的发展;但对于一些遗传病、一些疾病的数据,涉及到个人隐私的情况,相对而言就是不可以完全开放的。
同样的在数据的合规性上面,中国法律法规在这块有强监管,从整个国家的角度来说,这个是有《国家网络安全法》保障;欧洲也有GDPR这样一些法规来对整个数据安全本身提出一些要求。在我们医疗行业中,其实也有一些行业和法规。比如说前两年提出来的《国家健康医疗大数据标准、安全和服务管理办法》,其实就对医疗的数据本身提出了安全可控、安全管理、隐私保护等等这样一些要求,这是从合规性角度来说的。
对整个医疗数据本身的流通性而言,现在发现一个特点就是医疗机构和现存的数据的主体包含了医生端、检验端、患者端,它的主体本身所有权并不统一。举个例子,一个患者去医院看一次病,他其实带去的是什么?带去的是患者个体的个人信息,然后在医院检验、检查的过程中,又产生了非常多的检验端数据;在医生的诊断的过程当中,通过医生的临床经验,包括他的学识,又提出了很多与诊断和治疗相关的一些数据。这就导致在患者就医的过程中,产生数据的主体方其实是不统一的,有患者自身的、有检验的客观数据、也有医生的主观判断的数据,从而在医生、患者、检验方等在使用数据的供需关系中产生了一些差异,包括数据本身的需求、包括数据的提供方,患者本身提供了这样一个个性的数据。供需关系中掺杂着各种各样的情况,就导致在整个数据流通环节中,所有方和使用方这个主体并不统一。这就是我们现在看到的对于数据安全流通的一些角度和要点。
基于这样一些特点,我们提出了一个叫做UCloud的数据流通平台。对于医院医疗的数据,我们提出了一个观点,即从四位一体的角度来保证数据的安全。哪四个位呢?我其实这里罗列了1234,其中第一个点就是从这个数据最终使用的角度来说,提供了数据安全的一个流通管理平台,我后面有详细的介绍。在数据安全流通中,它可以对数据的使用方做权限的管理,做好数据的沙箱、数据的审计、使用和分配、数据资源本身的管理,以及对于数据的拷贝和分发的一些行为管理。
其次在整个医疗环节中、数据流通的环节中,医疗云的平台作为这样一个底层的支撑,其实也为未来数据的标准化和医疗云的标准化提供了一个很好的支撑。因为在云环境中,数据的使用处理其实都离不开云平台,对于数据的交换,包括数据的存储都会和云平台有强相关,这也是UCloud比较擅长的方面。
第三个部分是指的是整个信息安全和等级保护这一块,因为使用数据、流通数据必然涉及到一个经营和运营的过程,所以在整个数据使用的过程中,对于数据如何保障信息安全、如何合规合法地去使用这样一些数据,其实这里是有一些强要求的。
最后就是UCloud做了一件事情,就是在现有的硬件基础之上,我们提供了基于国产化的安全硬件,在这样的一个环境条件之下保障整个数据从硬件开始,它就已经是安全合规的、国产化的,能够在这样的一个基础之上去提供综合的数据流通的服务。
这就是我所说的四位一体的数据安全。
详细来看一下什么是数据流通的平台?首先我们认为在医疗数据的使用过程中,它被区分成了几个角色,第一个角色就是数据本身的提供方,诸如患者,诸如医院在某些特定场景下面,他们其实都是数据本身的提供方,他在一定程度当中提供出了他已有的一些数据,提供数据的目的也是为了让这个数据本身能够运转起来流转起来。他可能是主动提供或者说是被动提供,在一些需求的情况下面他可以被动提供。对应的就是数据的需求方,对于数据本身而言,有非常多的应用场景和各个行业强相关,去结合了以后会有一定的需求方。以医疗数据为例,在整个行业和使用过程当中,拿疫情来说,对于数据的需求方可能是来自于运营商,可能来自于监管单位,可能来自于行业的医疗机构,或者说是基因相关、生物相关的机构,这些都对数据有一定的诉求。可能数据本身他们是没有的,但是他们希望使用一些数据做一些建模、做一些处理,得到相应的一些结果。还有一个增值服务方,增值服务方其实可以理解成是一个第三方功能和工具的提供方,他提供出来了整个平台中所需要的算法、模型等,它和数据本身是无关的,但是它提供出来的是更多的诸如工具相关的一些内容。还有一个就是整个平台当中的监管方,因为整个数据要使用、要流转、要应用,一定离不开合理合规的部分,所以涉及到一个监管方,监管方可以是平台本身的运营方,也可以是监管单位。
所以这四方的关系其实可以理解成是供需关系,增值服务是提供出来的一部分工具和能力,监管单位从顶层做了一定的监管。当然这四个角色是可以有一些重叠和融合的,诸如数据的提供方,同时又是监管方。他最终的整个数据流通的目的是为了保障整体的数据可用不可见,无法带出相应的数据,但是又能够在一定的基础之上让数据脱敏,进行一定的流转。
UCloud在数据流通平台方面有一定的贡献和一些荣誉,诸如我们在科技部做的专题重点专项,包括我们在信通院做的数据流通平台关键的白皮书,当然也有我们在上海大数据中心联合创新做的实验室开放数据领域等,包括通信学会的科学技术一等奖。在整个数据流通行业中,其实现在并没有一个标准,我们有可能、也在尽自己最大的能力,去做一定的标准化和示范的一个作用。
从技术角度来说,我们把整个数据流通的平台分成了这样几大块:
首先,最下面的是基础设施部分,它可以是云平台,或者说是各种私有云、公有云的载体,它主要提供了基础设施。在中间的环节其实是偏重数据资源的,数据资源主要来源于数据的提供方。这里我们举了几个例子,可以是医院的管理数据,或者说是个人的健康数据,以及未来比较大量的可穿戴设备的数据,从第三方或者说是通过云端上传过来,当然也可能是个人的植入等等的一些基因数据。当然,在这个基础之上,数据在提供方数据资源层里面可以是多种多样的,在这个平台中,可以有多个提供方进行数据的碰撞和交叉互换。
其次,在这之上是一个数据加工层。诸如前面介绍的,在整个数据处理和流通的过程当中,一定会涉及到数据的再应用和数据的再开发,所以这里面可以是从这个平台中提供出来的一部分能力,包括一些快速的算法验证、一些主流的开发语言的支持,同时也可以有第三方的增值服务方提供一些应用和数据建模的能力,这些都可以糅合在数据加工层当中,它可以作为一部分的能力集成进来。在右边是对应的流程和规则,它主要配合着监管单位监管方去对数据使用、交易、流通、审核以及整个数据应用的过程,进行一定流程上的监管和一些审批行为上的监管,通过这种监管的方式来保障数据的再应用。在这个之上就是真正数据应用的部分,在整个数据使用过程中,它对于数据结果做到自定义的标签,风控的特征、预测分析、精准定位等。其次还有一个最重要的就是在边上的黄色的部分,涉及到安全保障,我们现在通过一些沙箱和区块链的一些技术来保障数据本身的溯源,以及对它的权限的管理。通过这一系列各部分组成了整体的数据流通平台。
在数据流通的平台基础之下,我们提供了UCloud的私有云平台。它的特点在于UCloud8年运营公有云的经验,把它做了能力的输出、做了相应的能力剪裁,以相同的公有云的架构提供出来了满足医疗环节当中的私有云平台,我们叫做UCloudStack。它本身是具备了和公有云一致的能力,它最大的特点是能够对医疗机构、医疗行业、甚至是监管单位卫健委等,提供一个运营的平台,因为本身UCloud在公有云环境当中持续运营了8年的时间,而私有云最大的特点就是能够满足面向多部门协同的底层基础设施的运营,把IT能力做服务化的转型,做到内部的运营,当然也可以有一部分的外部。这里可以是包含各种混合云的架构,因为UCloud本身在私有云和公有云这块是一套班子,一套体系,所以在整体的使用过程当中可以无缝地去对接公有云和混合云的部分。在UCloud这里,整个节点通过最小三个节点就可以去开起来,同时最大可以支持到8000个节点的扩容能力。在公有云上面包括故障的迁移、运维的管理等等体验都是和公有云完全一致的。
同时在这个基础之上,UCloud本身还做了国产化的适配。我们现在在整个云平台中,做到了几个程度的国产化适配,首先最下面的是对于芯片的支持,我们能够适配一些国产化的芯片,海光、飞腾等等。然后是国产化的服务器整机,诸如国内的这些主流品牌,它的国产化我们都是能够支持。同时在操作系统层面我们也已经支持了国内的诸如银河麒麟、中标麒麟、深度等等这样一些操作系统。然后在这个基础之上,我们去构建UCloud提供的私有云。所以在整个沙箱的环境当中,其实也可以基于国产化、基于国产化的私有云,来构建一整套的云平台和沙箱运行环境。
前面讲到了医疗云最重要的就是对于运营的管理,而运营本身诸如权限、账号、节点部署、资源的开通、审计、计量计费等等这样一些行为,其实都可以在整个云平台中去应用。可以这样理解,在整个云平台当中它提供了一个更大的支撑和承载的能力,而其中数据流通平台只是上面的一个应用,所以在整个平台的使用和维护的管理当中,它可以提供诸如数据流通、各种应用、互联网医院等等的一系列的承载的能力。对于整个云平台而言,最核心的部分就是把运营能力做了输出,包括我们已经设定好的对于租户、级别、账号、权限等等的管理,包括对于整个资源基础设施的统一的管理,在线的迁移。这一整套我们认为是在医疗云环节当中,对于资源基础设施,包括数据流通的过程中最主要的部分。
还有一个部分就是涉及到等级保护,因为我们认为整个数据在流通的过程当中,它一定会涉及到内部接口和外部接口,所以我们规划了整个医疗云的数据应用的环境,中间的蓝色的部分,其中诸如前面讲到的最下层是云的基础设施,在中间的这一层就是数据平台,它对应了数据库,各种结构化、非结构化的数据源,在这个之上就是数据流通的平台,但是对于等级保护而言,它是需要分级分区定系统的,所以我们可以把这一整套的医疗云的数据应用平台定义成一个系统,同时去规划对应的区域边界,对应的管理环境。同时假设有一些外部对接,外部通信,可以通过一些外部的接口,这样在逻辑上层次上面就会做得比较清晰,能够帮助整个医疗云在合规合法的情况下面,把数据应用起来、流通起来。
当然还有一些国产化的组件,我们做了一些诸如超融合一体柜,整体从整机柜开始做交付,整个机柜里面全是国产化的基础设施,这里面包含了超融合的服务器,包含了机柜与PS、空调、电池、PDU等等的这一系列,相当于我们能够做到整机柜交付开箱即用,在这一个箱子当中可以包含4台这个4U的服务器,然后来帮助我们的医疗单位能够更高集成度的,能够一体化地开通数据流通这样一个平台。当然也可以以这种超融合服务器的方式去选择,我们现在在超融合服务器当中,三台作为一个小节点,就能够部署出一个数据流通这个平台,相当于只要通过三个节点,就能够开出一个数据流通和运转平台。在整个数据流通的平台过程当中,它里面包含了对应的沙箱的机制,同时也包含了非常多的流程和审批审核的机制,当然也包含了UCloud最核心的云平台的能力,它可以在三个节点的超融合环境当中,如同使用公有云一样的体验,开出对应的存储、主机、数据库、缓存等等这一系列的服务。
综上对于医疗云这一块,我们认为它是需要在满足合规性的前提下,保障数据本身的流通,所以我们从几个维度来提出了对于安全的考量和设计。首先是网络安全,我们通过整体上做网络隔离、沙箱、权限控制、防火墙等等的一系列的行为,来保障网络本身的安全。其次在数据本身的角度当中,我们提供了诸如国密、KMS加密机、国产化适配、PKI的信任证书等等这样一系列的手段,来保障数据本身它的使用过程中,可以通过这一系列的体系加密算法来对这个数据本身进行加密或者说是脱敏。对于业务这一块,我提供出来了诸如多因子的认证,鉴权、权限管理、审计等等的一系列的行为,来保障在业务使用过程当中的安全。通过这三位一体在充分满足了合规性的前提下,保障整个数据保障数据流通和开放和安全。
最后介绍一个我们在政府行业当中,对于数据流通和开放的安全,这是我们国内某个省使用的。他提出了这样的一个办法,叫做《公共数据开放暂行管理办法》,通过这个也得到了2019数字政府特色评选50强。其中它是一个政务场景,整个数据的提供方是政务数据,政务数据本身做了一定的结构化和一定的存储,放在政务外网共享区当中。然后在一些开放生态,对于企业、机构、开发者,他们可能会对数据本身有一些使用。所以在政务外网右侧的互联网DMZ区里面,提供出来了诸如开放数据的检索目录,开放生态伙伴的加盟,包括一些用户的认证,开发者中心等等一些角色,那么可以通过这种方式去连接进来,去选择对应的数据需求,可以申请相应的数据。
最核心的部分是数据安全屋,通过安全的计算沙箱提供出来了这个数据本身的存储、模型算法、数据结果三种方式。从存储这一块先抽取到政务相应的数据放在沙箱当中,供企业或者机构去做数据碰撞和数据的应用开发。在这个环节当中配套着相应的算法模型,对数据进行一定的处理和一些结构化的行为的一些处理,最后得到相应的数据结果,通过整个数据结果进行相应的审批授权。最后在开发者使用的页面当中,能够相应的获取到一定的数据结果,然后真正把整个数据从合规的角度去把它进行流转,去把整个数据进行再应用和再开发。所以我们认为在政务场景能够使用这样的数据流通,在医疗场景更大的范畴当中,同样也是能够使用起来的。
这个就是我们对于医疗数据流通平台这一块的分享。谢谢主持人,我的分享到这里。