医疗保健行业是数据最丰富的行业之一,但由于严格的隐私和安全法,数据科学家无法对这些数据做太多事情。但现在,由于云计算中强大的安全设置和隐私保护分析的使用,ProvidenceHealth开始解开数据科学家的“手铐”,在医疗大数据上进行创新。ProvidenceHealth&Services拥有52家医院、1,000多家诊所和大约120,000名员工,是美国最大的医疗保健集团之一。与大多数医疗保健公司一样,ProvidenceHealth采取措施维护患者数据的完整性。毕竟,没有人愿意违反每次违规罚款50,000美元的HIPAA(健康保险流通与责任法案/健康保险流通与责任法案/医疗电子交易法案)。这家总部位于华盛顿Renton的公司着手更新其数据分析架构,首先是将老化的SQLServer数据仓库迁移到MicrosoftAzure云,因此安全性是头等大事。Providence数据科学总监LindsayMiko表示,该公司在2019年底与Databricks和其他公司合作构建其新数据环境时,采取了额外的预防措施以确保对数据保持严格控制。“普罗维登斯为安全云设置了一个独特的高标准,”Miko说。“与我合作的每一家科技公司......都认为这就是安全云的样子。然后他们开始与我们合作,他们很快就对制定标准持怀疑态度。我们与微软和Databricks携手构建With新的部署架构,我们需要与公共互联网隔离的东西,以妥善保护患者数据。”Snowflake还参与了Providence新的基于云的数据架构。最初的项目是将老化的SQLServer仓库迁移到Snowflake数据仓库,这将为分析业务和临床数据提供更具扩展性的系统。Providence足够大,可以容纳跨多个数据仓库的用户,因此Databricks和Snowflake环境是独立存在的。成本控制是普罗维登斯新云仓库的一个重要目标,该仓库用于传统分析以及构建和运行机器学习模型。作为一家以帮助穷人和有需要的人为使命的非营利天主教医院,普罗维登斯有责任提供负担得起的医疗服务,而分析可以在这方面提供帮助。“我们也知道医疗保健存在成本泡沫。患者的费用一直在上涨。医疗保健系统的利润率极低。这是一个双输的局面,”他说。“因此,找到使用数据和分析来控制成本的方法——这就是整个医疗保健系统的价值。”一些最初的用例涉及使用机器学习模型来预测患者的需求,包括发病率和住院时间等。这些预测被输入到一个人员配置模型中,该模型告诉普罗维登斯未来两个月可能需要什么样的服务人员配置。云的无限弹性是公司之前使用的重大升级。虽然数据仓库迁移在COVID-19大流行之前就开始了,但Miko和他的团队在大流行期间完成了大部分工作。这家医疗保健公司利用了EpicSystems的电子病历(EMR)软件附带的几种开箱即用的机器学习模型,并且它们运行良好。作为Epic最大的用户,机器学习模型的成功对Epic的研发团队来说是个好兆头。同时它加速了包括远程医疗在内的下一代系统的部署。“我们准备好了。我们有一个非常强大的基础设施来处理远程医疗。我们能够将大量数据传输到远程医疗。它也在推动预测分析。有很多关于死亡风险、ICU住院时间和“在大流行初期。部署了其他一些模型。这些是Epic内置的应用程序。这只是漫长旅程的第一步。AI有更多机会改善临床护理,”Miko说。例如,该公司正在对源自Epic的HealthLevel7(HL7)医疗文件进行实时分析。这些数据使用SparkStreaming进行处理,然后实时加载到Databricks仓库中的表单中。“这项工作开始是为了建立我们所谓的任务控制,它可以实时了解医院的情况,”他说。任务控制的早期用例之一是获得对各个医院资源的可见性,以确定哪些资源是否能够处理即将到来的患者。这是一个有用的工具,有助于防止医院人满为患,这在COVID-19大流行最严重的时候是一个非常现实的威胁。使用分析和人工智能来改善业务和临床运营,他说:“这是一个很好的起点,一旦您实时了解医疗保健系统中正在发生的事情-谁在那里,您需要什么,并与他们的图表相互关联——您可以开始预测接下来会发生什么。您可以开始优化有关临床护理或手术的决策。所以我对任务控制非常感兴趣。”该公司正在考虑利用一些更强大的人工智能智能技术,包括深度学习,以进一步优化其运营并改善医疗保健服务。具体来说,它正在与JohnSnow的实验室及其SparkNLP模型合作,以便能够从医生的医疗记录中提取有意义的数据。在处理这种级别的敏感数据时,安全和隐私至关重要,因此SparkNLP的首要任务是识别患者的医生记录。该医疗保健公司正在使用JohnSnow实验室的预训练模型,该模型可以识别日期、姓名、地址和邮政编码等标识符。“它的效果出奇地好,”Providence旗下的技术和服务公司Tegria的高级数据科学家NadaaTaiyab说。标记标识符后,普罗维登斯将数据替换为虚拟数据,从而消除了私人健康信息(PHI)的风险。此过程使Providence能够使用汇总的医疗数据进行机器学习模型的高级分析和培训。Taiyab说,虽然混淆步骤降低了PHI落入坏人之手的风险,但有时需要真实的患者数据,尤其是在使用机器学习模型时。“如果你聚合它,你就不能将它用于机器学习,如果你试图在患者层面预测某些东西。”“如果你想在人口水平上预测它是一回事。但你需要有患者水平的数据”才能做出患者水平的预测。Providence还可以通过系统生物学研究所(ISB)使用其患者数据进行进一步的医学研究。ISB是一家总部位于华盛顿西雅图的医疗分析公司,由人类基因组计划的研究人员之一LeroyHood博士创立。Providence所做的数据安全工作使其能够与其在2016年收购的ISB共享数据。Miko表示,ISB挖掘Providence大型医疗数据仓库的能力对于ISB对健康状况的研究很重要,例如长期COVID-19.“这只是您可以在安全的云环境中部署和集成数据意味着什么的一个例子,”他说。随着Providence探索使用高级分析和人工智能来改善其医疗保健使命的其他方法,构建安全云数据架构的投资有望获得回报。“Providence为医疗保健领域的安全云设计了蓝图,”Miko说。“这需要大量实践、大量学习以及与合作伙伴的大量协作。每一步都在改进它。随着我们学习新事物,部署模型也会发生变化。但我们认为有一个非常坚实的蓝图。”获取数据仍然是这方面取得进展的主要障碍之一。Providence为降低安全和隐私风险所做的工作是良好的开端,但还有更多工作要做。
