当前位置: 首页 > 科技观察

隐私保护:AI匿名化医疗临床数据

时间:2023-03-20 22:00:43 科技观察

面对突如其来的新冠疫情,我们见证了创纪录的数据泄露事件。IBM最近的一份报告发现,数据泄露的成本也在飙升。医疗保健无疑是受数据泄露影响最严重的行业之一,每次泄露平均造成920万美元的损失。在此类泄露中最常面临风险的信息类型是敏感的客户数据。制药和医疗保健公司必须在严格的指导方针下组织运营,同时保护患者数据。因此,任何违规行为都可能代价高昂。例如,在整个药物发现阶段,公司需要收集、处理和存储个人身份信息(PII),并且在完成试验并提交临床申请时,必须注意保护患者在公布结果中的隐私。欧洲药品管理局(EMA)第0070号条例和加拿大卫生部颁布的条例《公开发布临床信息》都对数据匿名化提出了具体建议,希望将使用结果还原患者身份信息的风险降到最低。除了提倡数据隐私外,这些法规还要求共享试验数据,确保社区可以在此基础上进行建设。但这无疑让企业进退两难。那么,制药公司如何在及时、经济、高效地发布研究结果的同时平衡数据隐私和透明度呢?事实证明,AI技术可以承担提交环节97%以上的工作量,大大减轻企业的运营负担。为什么匿名化临床研究结果(CSR)如此困难?在实施临床申报匿名化的过程中,企业主要面临三大核心挑战:非结构化数据难以处理:临床试验数据中很大一部分是非结构化数据。研究成果包含大量文本数据、扫描图片和表格,处理效率低下。从数千页的研究报告中识别敏感信息就像大海捞针。此外,没有标准化的技术培训解决方案可以使此类处理自动化。手动过程繁琐且容易出错:如今,制药公司雇用数百名员工对临床研究提交进行匿名处理。整个团队需要经过25个以上的复杂步骤,而一份典型的摘要文档可能需要长达45天的时间来处理。而在手动检查数千页材料时,繁琐的过程往往容易出错。监管指引开放解读:虽然在规定中有很多详细的建议,但细节仍然不完整。例如,加拿大卫生部的《公开发布临床信息》规定要求身份信息的还原风险应低于9%,但并未详细介绍具体的风险计算方法。下面,从解决问题的角度,设想一个具体的解决方案来应对这类匿名化需求。使用增强分析识别人类语言中的敏感信息以下三个要素可以帮助创建技术驱动的匿名化解决方案:用于自然语言处理(NLP)的AI语言模型如今,AI可以像艺术家一样进行创作,也可以像医生一样进行诊断。深度学习技术推动了AI的诸多进步,而AI语言模型是其中的支柱之一。AI语言模型是专门处理人类语言的算法分支,特别擅长检测命名实体,例如患者姓名、社会安全号码和邮政编码。在你不知不觉中,这些强大的人工智能模型已经渗透到公共领域的每一个角落,并通过公开文件进行大规模训练。除了广为人知的维基百科,包含4万患者脱敏数据的MIMIC-IIIv1.4数据库也成为训练AI模型的宝贵资源。当然,为了提升模型性能,后续需要领域专家根据内部临床试验报告对模型进行再训练。通过人机环路设计提高准确率加拿大卫生部提出的9%风险阈值标准,可以大致转化为模型准确率要求在95%左右(一般以召回率或准确率来衡量)。人工智能算法能够查看大量数据并运行多个训练周期以提高其准确性。然而,仅靠技术改进还不足以为临床应用做好准备,这些模型还需要人的指导和支持。为了解决临床试验数据的主观性并改善结果,分析解决方案旨在与人类协同工作——这被称为增强智能。将人类视为人机循环的一部分,不仅负责数据标注和模型训练,而且在解决方案奏效后定期提供反馈。这样一来,模型的准确率和输出性能都会得到提升。以协作方式解决问题让我们假设一项涉及1000名患者的研究,其中980名来自美国大陆,其余20名来自南美洲。那么,这20名患者是否需要编辑(涂黑)或匿名化?是否有必要选择同一国家或大陆的患者样本?攻击者可能以何种方式将这些匿名信息与年龄和邮政编码等数据结合起来,最终恢复患者的身份?不幸的是,这些问题没有标准答案。为了更清晰地解读临床提交指南,制药商、临床研究组织(CRO)、技术解决方案提供商和学术界的研究人员需要联合起来共同努力。AI驱动的匿名化方法有以上基本思路,下一步就是将它们拼凑成一个完整的求解流程。并且整个匿名化方案中的各种技术应该基于我们在工作中实际使用的方法。临床研究报告包含各种结构化数据(数字和身份实体,例如人口统计信息和地址条目),以及我们之前讨论的各种非结构化数据元素。必须注意防止恶意黑客将这些恢复到敏感的命名实体。结构化数据相对容易处理,但人工智能算法仍然需要克服非结构化数据的难度。因此,首先使用光学字符识别(OCR)或计算机视觉等技术将非结构化数据(通常是扫描图像或PDF等格式)转换为可读形式。之后,将人工智能算法应用于文档以检测个人身份信息。为了提高算法的性能,用户可以分享样本结果的反馈,以帮助系统了解如何处理这些低置信度的分析内容。人工智能驱动的匿名化方法完成后,需要评估相应的身份还原风险。这项工作通常需要在人群背景下进行,并结合其他类似试验的数据。风险评估侧重于通过一组要素确定三种风险场景——检察官、记者和营销人员。这三个群体会从自身需求出发,尝试还原患者信息。在风险水平达到建议的9%之前,匿名化过程将不断引入更多的业务规则和算法改进,试图在迭代循环中提高效率。通过与其他技术应用相结合,建立机器学习操作(MLOps)流程,可以将整个匿名化解决方案融入到实际的工作流程中。比算法更严峻的挑战——数据质量对于制药公司而言,此类匿名化解决方案最多可将提交周期缩短97%。更重要的是,这种半自动化的工作流程在保持人员参与的同时提高了效率。但是构建AI驱动的匿名化解决方案的最大挑战是什么?事实上,与大多数数据科学实践一样,这项工作的最大障碍不是用于识别命名实体的AI算法,而是如何将研究报告转化为AI可以处理的高质量数据。对于不同格式、样式和结构的文档,内容摄取管道常常不知所措。因此,AI匿名化解决方案需要不断微调以适应新的文档编码格式,或准确检测图像/表格扫描中的开始和结束位置。显然,这方面的工作是AI匿名化最耗时耗力的地方。临床研究匿名化的新挑战随着技术的快速进步,临床研究匿名化的难度是否会不断降低并变得更加高效?虽然人工智能驱动的解决方案确实令人印象深刻,但未来还会有新的挑战需要关注。首先,通过社交媒体、设备使用和在线跟踪收集的消费者数据显着增加了身份恢复的风险。攻击者可以将这些公开信息与临床研究数据结合起来,准确识别患者。更令人担忧的是,恶意黑客在AI成果应用方面非常活跃,甚至可能抢占药企先机。最后,法规不断发展,试图适应特定国家的实践状况。一些国家可能很快会出台关于临床提交匿名化的具体规定,这将不可避免地增加企业维持合规的复杂性和成本负担。但正所谓前途是光明的,道路是曲折的。人工智能技术的成熟发展,至少给整个行业带来了渡过难关的希望。