在医疗保健业务的宏伟计划中,预测模型与血液测试、X射线或核磁共振成像具有相同的目的:它们影响有关干预是否合适的决策。“从广义上讲,一个模型会进行数学运算并产生概率估计,以帮助医生和患者决定是否采取行动,”斯坦福医疗保健公司首席数据科学家兼斯坦福HAI教员NigamShah说。但这些概率估计仅在触发更有益的决策时对医疗保健提供者有用。“作为一个社区,我认为我们痴迷于模型的性能,而不是问这个模型有用吗?”沙阿说。“我们需要在那种范式之外思考。”Shah的小组是为数不多的评估医院是否有能力进行基于模型的干预以及这些干预是否有益于患者和医疗机构的医疗保健研究小组之一。“人们越来越担心人工智能研究人员在不部署任何东西的情况下左右构建模型,”Shah说。造成这种情况的一个原因是建模者未能进行有用性分析,以表明模型触发的干预措施如何以具有成本效益的方式整合到医院运营中,同时弊大于利。”“如果模型开发者愿意花时间做这个额外的分析,医院也会感兴趣。实用性分析工具已经存在于运筹学、医疗保健政策和计量经济学中,但医疗保健领域的模型开发人员采用这些工具的速度很慢,Shah说。改变这种心态的论文,敦促更多的人评估他们模型的有用性。其中包括一篇JAMA论文,该论文解决了建模者考虑有用性的需求,以及一篇研究论文,该论文提出了一个框架,该框架用于分析医疗保健中预测模型的有用性,并展示了它是如何使用真实世界的例子工作的。”可能会增加其运营,部署新模型必须是值得的,”Shah说。“有成熟的框架来确定模型的价值。现在是建模者使用它们的时候了。“了解模型之间的相互作用,干预,以及干预的利弊如上图所示,模型的有用性取决于模型之间的相互作用、它触发的干预以及干预的利弊,”Shah说。首先,该模型——通常最受关注——应该善于预测它应该预测的任何事情,无论是患者再入院的风险还是患糖尿病的风险。此外,Shah说,它必须是公平的,这意味着它产生的预测同样适用于所有人,无论种族、民族、国籍或性别;并且必须可以从一个医院站点推广到另一个站点],或者至少对当地医院人口做出可靠的预测;此外,它应该是可以解释的。其次,医疗保健组织必须制定关于何时以及如何根据测试或模型进行干预的政策,以及关于谁负责干预的决定。他们还必须有能力(足够的人员、材料或其他资源)进行干预。Shah说,制定关于是否或如何以特定方式干预该模型的政策会影响健康公平。谈到公平性,Shah说:“研究人员花了太多时间关注一个模型是否对所有人都同样准确,而没有足够的时间关注一项干预措施是否平等地使每个人受益——尽管我们试图解决的大部分问题。不公平都来自后者。”例如,如果其预测对所有种族和族裔群体都同样准确,那么预测哪些患者不会出现预约本身可能并不公平,但选择如何干预——是否重复预约时间或提供交通支持帮助人们赴约——可能对不同的人群产生不同的影响。第三,干预的好处大于风险。任何干预都可能产生积极和消极的后果,Shah说。因此,模型预测的有用性将取决于它触发的干预的利弊。要了解这种相互作用,请考虑一个常用的预测模型:动脉粥样硬化性心血管疾病(ASCVD)风险方程,它依赖于九个主要数据点(年龄、性别、种族、总胆固醇、低密度脂蛋白/高密度脂蛋白胆固醇、血压、吸烟史、糖尿病状况和抗高血压药物使用)被用于计算患者10年的风险心脏病发作或中风。Shah说,对ASCVD风险方程式的丰富实用性分析将考虑上图的三个部分并发现它有用。首先,该模型被广泛认为可以高度预测心脏病,而且是公平的、可概括的和可解释的。其次,大多数医疗机构通过遵循关于他汀类药物处方风险水平的标准政策进行干预,并且由于他汀类药物广泛可用而具有足够的干预能力。最后,对他汀类药物使用的危害/益处分析表明,尽管有些患者无法忍受其副作用,但大多数人都受益于他汀类药物的使用。模型实用性分析示例:高级护理计划上面的ASCVD示例虽然具有说明性,但可能是最简单的预测模型之一。但是预测模型有可能触发以更复杂的方式破坏医疗保健工作流程的干预措施,并且某些干预措施的好处和危害可能不太清楚。为了解决这个问题,Shah和他的同事开发了一个框架来测试预测模型在实践中是否有用。他们使用触发称为高级护理计划(ACP)的干预的模型来演示该框架。ACP通常提供给临近生命尽头的患者,包括公开和诚实地讨论未来可能发生的事情,以及如果患者失去能力,他们会想要什么。这些对话不仅让患者有一种掌控自己生活的感觉,而且还能降低医疗成本,提高医生士气,有时甚至可以提高患者的生存率。Shah在斯坦福的团队开发了一种模型,可以预测哪些住院患者可能在未来12个月内死亡。我们的目标:确定哪些患者可能受益于ACP。在确保该模型能够很好地预测死亡率并且公平、可解释和可靠后,该团队进行了两项额外的分析,以确定模型触发的干预措施是否有用。第一项是成本效益分析,发现成功的干预(向模型正确识别为可能受益的患者提供ACP)将节省大约8,400美元,而对不需要ACP的患者(即模型错误)进行干预将花费大约3,300美元。“在这种情况下,非常粗略地说,即使我们只有三分之一是正确的,我们也会收支平衡,”沙阿说。但分析并没有就此停止。“为了节省承诺的8,400美元,我们实际上必须执行一个工作流程,例如,涉及21个步骤、3个人和48小时内的7次交接,”Shah说。“那么,在现实生活中,我们能做到吗?”为了回答这个问题,该团队模拟了500个住院日的干预,以评估人员配备有限或时间不足(由于患者出院)等护理提供因素将如何影响干预的好处。他们还量化了与门诊病人提供ACP相比,增加住院病人的相对好处。结果:选择门诊可确保获得更多预期收益。“我们只需要跟踪一半的出院患者就可以获得75%的效用,这很好,”Shah说。Shah说,这项工作表明,即使你有一个非常好的模型和非常好的干预措施,但只有在你也有能力提供干预措施的情况下,模型才有用。虽然事后看来这个结果可能看起来很直观,但沙阿说当时情况并非如此。“如果我们没有进行这项研究,斯坦福医院可能只是扩大了其提供ACP的住院容量,尽管它的成本效益不是很高。”Shah的团队用于分析模型、干预措施之间的相互作用以及干预措施的利弊的框架可以帮助识别在实践中有用的预测模型。“至少,建模者应该进行某种分析,看看他们的模型是否会提出有用的干预措施,”Shah说。“这将是一个开始。”
