当前位置: 首页 > 科技观察

AI 在新冠检测中暴露短板,研究发现 647 款 AI 工具不适用于临床

时间:2023-03-17 13:23:09 科技观察

AI在检测新冠方面暴露了短板,研究发现647种AI工具不适合临床使用的情况进行了预测。但遗憾的是,来自荷兰马斯特里赫特大学和英国剑桥大学的两个研究团队分别独立测试了232个和415个AI工具,发现647个工具中没有一个适合临床使用,有些甚至不适合临床使用.会有害的。这一结果主要与用于训练AI模型的数据质量有关。开发者使用的数据集往往夹杂着一些无效或错误的信息,导致AI工具学习到错误的判断方法。开发人员通常不具备医学专业知识,这使得他们很难发现错误。一些专家认为,只有通过开发人员和临床医生的合作,才能尽可能避免此类错误。此外,一些专家呼吁对此类全球卫生突发事件进行“数据共享”,以便各国能够充分应对。1.共测试了647个AI工具,没有一个适合临床使用2020年3月,COVID-19开始袭击欧洲,但当时的人们对此知之甚少,这让欧洲医院陷入了危机。“医生们真的不知道如何管理这些患者,”荷兰马斯特里赫特大学的流行病学家LaureWynants说,他一直致力于流行病的预测工具。培训和帮助医生诊断患者将挽救很多生命。LaureWynants说:“AI可以证明它在这件事上的实用性,我很有希望。”世界各地的研究团队加紧研究,尤其是人工智能界争先恐后地开发各种软件。许多人认为,该软件将使医院能够更快地诊断或分诊患者,支持前线抗击疫情。然而,已经开发了数百种检测工具,但没有一种真正起作用。6月,英国国家数据科学和人工智能中心图灵研究所发布了一份报告,总结了它在2020年底举办的一系列研讨会上讨论的内容,这些研讨会的一个明确共识是:人工智能工具几乎没有在与COVID-19的斗争中产生了真正的影响。两个研究团队围绕这些AI工具进行的两项独立研究的结果支持了这一结论。LaureWynants和她的同事研究了232种用于预测或诊断新冠肺炎患者的算法,发现没有一种算法适合临床使用,只有两种算法可能有助于未来的临床检测。该研究结果发表在英国医学杂志的一篇评论文章中,随着新工具的发布和研究人员对现有工具的测试,该研究结果仍在更新。对于这样的结果,LaureWynants表示:“非常震惊。我是带着这样的顾虑开始这项工作的,但这个结果超出了我的预期,让我非常害怕。”▲荷兰马斯特里赫特大学流行病学家LaureWynants、剑桥大学机器学习研究员DerekDriggs及其同事的另一项研究结果得出了相同的结论。该团队使用深度学习模型来诊断COVID-19,并让AI从胸部X光和CT扫描中预测患者的风险。他们查看了415种公开可用的AI工具,但结果与LaureWynants的发现一致,即没有一种工具适合临床使用。该研究成果发表于NatureMachineIntelligence,论文标题为《使用机器学习通过胸片和 CT 扫描检测和预测 COVID-19 的常见缺陷和建议(Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans)》。正在研究一种希望在新冠疫情期间帮助医生的机器学习工具的DerekDriggs说:“这次疫情是对AI和医学的一次巨大考验,但我认为我们还没有通过考验。”尽管结果如此,LaureWynants和DerekDriggs仍然相信AI有潜力帮助医生,同时也担心以错误方式构建的AI工具不仅无益,甚至有害,因为它可能导致医生做出错误的诊断或低估了患者的病情。DerekDriggs表示,关于机器学习模型及其功能的炒作很多,对它们不切实际的期望正在推动这些工具早日投入使用。LaureWynants和DerekDriggs研究的数百种AI工具中的一些已经在一些医院使用,还有一些正在被私人开发商出售。“我担心他们可能伤害了病人,”LaureWynants说。COVID-19大流行让许多研究人员清楚地知道,他们需要改变人工智能工具的构建方式。LaureWynants说:“新冠疫情的蔓延让这个问题成为人们关注的焦点。”其次,训练AI的数据错误太多,导致AI学习结果有偏差。研究人员发现,这些AI工具的很多问题都与开发人员用来开发工具的数据质量有关。在新冠疫情蔓延期间,通常治疗新冠肺炎的医生会收集和共享有关疾病的信息,包括医学扫描图像。而这些信息和数据是工具开发人员唯一可用的公共数据集,这意味着许多是使用错误标记的数据或来自未知来源的数据构建的。DerekDriggs强调了他所谓的“Frankenstei”数据集的问题,这些数据集从多个来源拼接在一起,可能包含重复项。这意味着某些工具最终可能会在与它们训练时使用的相同数据上进行测试,从而使它们看起来比实际情况更准确。开发者还可能混淆一些数据集的来源,这可能会遗漏一些影响模型训练结果的重要特征。例如,有人在不知不觉中使用了一个数据集,其中包括未感染COVID-19的儿童的胸部扫描作为非COVID-19病例的示例。原来,AI学会了如何识别儿童,而不是新冠病毒。德里克·德里格斯(DerekDriggs)的小组尝试使用一个数据集来训练其模型,该数据集包含对躺下和站立的患者的混合扫描。由于躺着接受扫描的患者更有可能患重病,因此人工智能错误地学会了根据一个人是站立还是躺着来预测疾病的严重程度。在另一个案例中,研究人员发现一些AI会响应某些医院使用的文本字体来标记扫描结果。于是,收治危重病人的医院字体就成了预测新冠肺炎风险的指标。事后看来,这些错误似乎很容易发现,并且如果开发人员知道这些错误,可以通过调整模型来修复。但许多工具要么是由缺乏医学专业知识的人工智能研究人员开发的,因此很难发现数据缺口,要么是由缺乏数学技能的医学研究人员开发的,他们很难用专业知识填补这些数据缺口。DerekDriggs还提到了一个更微妙的错误,就是合并偏差(incorporationbias),或者说数据集标注时引入的偏差。例如,许多医学扫描都根据放射科医生对它们是否显示COVID-19的判断进行标记,但这将一些医生偏见嵌入或合并到数据集中。德里克·德里格斯(DerekDriggs)表示,用PCR检测的结果来标记医学扫描要比仅仅听取医生的意见要好得多,但医院通常没有那么多时间来整理这些细节。LaureWynants说,这些已知的错误并没有阻止其中一些工具被匆忙投入临床实践,目前还不清楚正在使用哪些工具或如何使用它们。医院有时会说他们仅将这些工具用于研究目的,这使得研究人员很难衡量医生对这些人工智能工具的依赖程度。LaureWynants要求一家销售深度学习算法的公司分享有关其方法的信息,但没有得到回应。后来,她从与该公司相关的研究人员那里获得了几个已发表的模型,不出所料,这些模型存在很高的偏差风险。“我们其实并不知道这家公司是做什么的,甚至一些医院都和医疗AI供应商签订了保密协议。”劳尔怀南特说。当她问医生他们使用什么算法或软件时,她被告知医院不允许医生这样说。3.AI开发者需要与临床医生合作。专家呼吁“数据共享”。更完整的数据或许有助于解决这个问题,但在危机时刻,这个要求很难达到。DerekDriggs表示,更重要的是充分利用已有的数据集,AI开发团队应该更多地与临床医生合作。开发人员需要共享他们的模型并公开他们是如何训练它们的,以便其他人可以测试它们并正确使用它们。“这里有一些我们现在可以做的事情,它们可能会解决我们发现的50%的问题,”DerekDriggs说。总部位于伦敦的全球健康研究慈善机构WellcomeTrust的临床技术团队负责人BilalMateen说,如果格式标准化,访问数据也会更容易。LaureWynants、DerekDriggs和BilalMateen都发现的一个问题是,大多数开发人员都渴望开发自己的模型,而不是与他人合作或改进现有模型。结果是世界各地的开发人员共同努力创建了数百个无用的工具,而不是一些经过培训和测试的工具。LaureWynants说:“这些模型非常相似,它们都使用几乎相同的技术,只是稍作调整,输入几乎相同的数据,并犯下几乎相同的错误。“从某种意义上说,这是研究领域的老毛病。学术研究人员没有动力分享工作经验或验证现有结果。将技术从实验室长凳带到床边的最后一英里没有任何回报。”BilalMateen说.为解决这一问题,世界卫生组织正在考虑一项紧急数据共享协议,该协议将在国际卫生危机期间生效。这将使研究人员更容易跨境共享数据。6月,英国在G7峰会召开之前,与会国家的主要科学团体也呼吁“数据准备就绪”,为未来的突发卫生事件做好准备。这样的呼唤,听上去含糊不清,还带着一厢情愿的意味。这种类型的数据共享计划在COVID-19大流行之前就已经停滞不前。BilalMateen认为,COVID-19大流行使很多事情重新提上了议事日程。分享背后的谜题,否则我们注定重蹈覆辙。如果再发生这样的错误是不可接受的,忘记这次全球大流行的教训是对死者的不尊重。》结语:人工智能在抗击疫情中的短板新冠疫情是一场席卷全球的灾难,抗击新冠疫情不是某个人、某个群体或某个国家的责任,而是全人类都必须参与的斗争。在这场斗争中,人工智能被寄予厚望,许多研究团队参与了各种人工智能工具的开发,希望能够帮助医生检测和诊断新冠。但事实证明,这些人工智能工具并没有发挥出真正有效的作用但是,这并不否定AI在疾病诊断方面的潜力,要让AI能够检测出新冠病毒,一方面需要更准确、更完善的数据集来训练它,另一方面也需要人工智能工具的开发者和医学领域的专家,以便能够更有效地发现其中的漏洞。此外,为了应对这种全球健康危机,各国需要共同创建一个开放的研究中心。h环境,让各类相关研究数据可以更自由地分布在各国科研团体之间流动,让研究成果更有效地用于与疾病的斗争中。只要训练方法得当,AI可以更高效、更准确地诊断疾病,但遗憾的是,一些被寄予厚望的AI工具在抗击新冠疫情中并没有展现出应有的能力。这次全球疫情的教训,或许能让人工智能开发者和相关组织认识到不足,为下一次可能出现的新的全球危机做好准备。做好准备。