当前位置: 首页 > 科技观察

2021人工智能深度研究:机器学习最终会取代人类医生吗?

时间:2023-03-19 02:09:28 科技观察

我们要讨论的论文,它采用的方法绝对可以比之前的任何方法都要好。本来想在博客里讨论几篇类似的paper,可惜每篇paper都有很多值得深思的地方(本文已经占了3000字),所以我就把全部时间都花在每篇paper上。深入探索和理解的空间。然后我将在几周内将这些文章分开,在我的博客上形成一个关于医疗保健中的AI的系列文章。对于这个话题,我要感谢这篇论文的作者之一彭莉莉博士,她很好地回答了我的许多问题。这里有一个简短的总结:TL:DRGoogle(及其合作者)训练了一个系统来检测糖尿病性视网膜病变(全球5%的失明原因),并由眼科医生进行诊断。这是一项有用的临床任务。它可能不会节省很多钱,也不会在医疗自动化后取代医生,但它的提议很有人文情怀。他们使用了130,000张视网膜图像进行训练,比公开可用的数据集大1到2个数量级。他们用正面案例丰富了他们的训练集,在一定程度上抵消了数据分布不平衡的影响。由于大多数深度学习模型在低分辨率图像上工作,原始数据被下采样,丢弃超过90%的像素值,但是我们无法评估这是否有益。他们聘请了眼科医生团队对图像进行注释,这可能会花费数百万美元,目的是使注释更加准确并避免误报。第5点和第6点是造成目前所有深度学习系统错误率高的原因,这个问题很少被提及。深度学习之所以比医生有优势,是因为它们可以在各个“操作点”进行操作,同一个系统无需额外训练就可以进行高灵敏度筛查和高特异性诊断。这是一项伟大的研究,人们可以很容易地理解它,并且在正文和补充中有很多有用的信息。该研究似乎符合FDA当前对510(k)批准的要求。尽管该技术不太可能通过,但该系统或衍生物很可能在未来一两年内被添加到临床实践中。免责声明:本文主要面向普罗大众,包括机器学习领域的专家、医生等,相关专家可能觉得我对一些概念的理解肤浅,但还是希望他们能发现更多有趣的新思路在自己的研究领域之外。还有一点要强调的是,本文如有错误,请读者告诉我,我会及时改正。研究现状在讨论之前,我想提醒大家,虽然深度学习从2012年开始逐渐发展成为研究人员经常使用的一种方法,但是我们已经有五年没有在医学上使用这种方法了。为了安全起见,我们的医务人员也往往落后于科技的发展一步。了解了这个背景之后,你可以想象,现在所取得的一些成果更令人难以置信,我们应该客观地认识到,人工智能在医学上的发展才刚刚开始。论文提出医疗自动化取得突破性进展。我将在本文中对其进行简单回顾,并适当补充一些有用的知识。我将花几分钟时间解决几个关键问题,使这项研究更进一步:任务——这项任务是临床任务吗?如果实现自动化,医疗实践将面临多少中断?你为什么选择这个特定的任务?数据——如何收集和处理所需数据?如何处理数据以满足医学实验和监管的要求?我们需要深刻理解医疗人工智能对大数据的要求。结果——AI会打败医生还是打平?他们到底测试了什么?我们还能收获什么?结论——这个结果有多大影响?我们可以进一步得出其他结论吗?谷歌最新研究任务:糖尿病性视网膜病变是导致失明的主要原因,是由眼睛后部的微小血管受损引起的。医生可以通过观察眼睛后部的血管做出诊断,这本质上是一项感官任务。?图1例如,DL系统可以学习如何识别像“棉花状斑点”这样的白色斑点图案。他们训练了一个深度学习系统,可以完成和评估与糖尿病视网膜病变相关的多项任务。主要结果是一组糖尿病视网膜病变病例在患有中度或更严重眼病的患者中进行了评估(该组患者的治疗与非对照组不同)。他们还测试了深度学习系统识别其他严重视网膜病变以及黄斑是否水肿的能力。数据:他们使用了130,000张视网膜图像来训练设计的深度学习系统。每个等级由3至7名眼科医生投票决定,最终结果由多数票决定。这些图像是从四家当地医院(美国的EyePACS和3家印度医院)收集的可追溯临床数据,由不同的相机拍摄。他们在两个数据集上验证了系统(在医学上,术语“验证”是指未参与系统开发和培训的患者,这与机器学习中的测试集同义)。其中一个数据集是从EyePACS数据集中随机抽取的,另一个数据集来自3家法国医院(Messidor-2)的公共数据集。第二个数据集中的所有图像都是由同一台相机拍摄的。这些测试集由7-8名眼科医生评分,同样使用多数表决机制。在用于开发和训练的数据集中,视网膜病变患病率占55%,恶化率占8%。验证数据中患者患病率远低于普通患者,为19.5%。在患病率中,只有1.7%是严重或恶化的。此类数据集由研究人员故意设计,以便在训练集中包含大量阳性病例(他们添加的病例比临床人群中通常发生的病例多)。对于数据集的质量,视网膜图像的分辨率通常在1.3到3.5兆像素之间。这些像素被缩小到299*299的分辨率,或0.08兆像素(减少94%到98%的像素!)。这是他们设计的网络结构的一个特点,不能使用其他尺寸和分辨率的图片。神经网络:他们使用了GoogleInception-v3深度神经网络的预训练版本,这是迄今为止使用的最好的图像处理系统之一。预训练是指网络已经在一些非医学对象(比如猫和汽车的图片)上进行了训练,然后在此基础上对特定的医学图片进行训练。这就是网络只接受229*229分辨率图像输入的原因。结果:我认为这篇论文是深度学习在医学人工智能领域的第一个突破。该机器具有与眼科医生几乎相同的疾病判断能力,甚至可以与“中级”眼科医生一较高下,表现相当出色。图2这就是所谓的ROC曲线,这是判断疾病诊断系统的最佳方法之一。通过计算曲线AUC下的面积,可以将灵敏度和特异性结合在一个指标中。99.1%非常好。彩色圆点是专业眼科医生的诊断结果,黑色线条是经过训练的深度学习系统的诊断结果。如您所见,如果我们将所有彩色点连接起来,我们就会得到眼科医生诊断的ROC曲线*,类似于深度学习系统的ROC曲线。如果你不知道ROC曲线,你可以相信我,这绝对是证明两个诊断相同的有效方法(FDA会同意我的看法)。他们的系统可以非常准确地检测出黄斑水肿,但其绝对值(AUC值)数据在一些严重的视网膜病变中存在一些差距,但与眼科医生的头对头比较并不能解释这一点。讨论:这里有一些关于这项研究的有趣的事情要讨论。成本:他们聘请了一个眼科医生团队来标记他们的数据,并且有500,000个标签需要标记。如果按照正常看病的价格给医生看病,估计要上百万美元。这个费用比大多数初创公司的成本还要高,他们当然不能接受只有单一数据集的标注任务。从统计学的角度来看,数据就是力量。对于医疗人工智能来说,只有钱才能产生这么多数据。换句话说,金钱就是力量。任务:他们能够从眼睛照片中检测出两种以上的“视觉眼病”(中度或重度视网膜病变),甚至更严重的视网膜病变和黄斑水肿。这些都是临床上非常重要的任务。最重要的是,这些任务涵盖了大多数医生在检查糖尿病患者眼睛时所做的工作。当然,该系统不会检测到罕见的视网膜黑色素瘤,但对于常规眼科检查,它是一个很好地模仿医生的系统。数据:数据是一个有趣的方面,原因有两个:质量和数量。从他们进行的一系列实验中,我们可以看出他们需要的图片数量。他们还用不同数量的训练样本测试了系统的性能。图3数据集中的图像数量(单位:千)这张图像向我们展示了一些非常有趣的东西,他们训练集中的图像数量上限为60,000个示例,并且这些图像至少是97%的灵敏度操作点。值得注意的是,这比公开的数据集大了一到两个数量级,如果你的实验能超过97%的灵敏度,毫无疑问你的数据需求也会增加。该结果还告诉我们有关数据集大小的其他信息。当他们试图复制眼科医生的做法时,他们对常见眼病的敏感性达到了90%,但对严重或更严重疾病的敏感性仅为84%。这可能是由于识别严重疾病的任务很困难。此外,我还注意到,“中度或重度”疾病的训练数据是正常人的3到4倍。绝对数据较少(大约9500对34000个病例),关于流行眼病的数据也较少(9%阳性对30%阳性)。机器学习需要对不平衡数据进行训练,但不平衡数据并不容易获得。以我的经验,失衡率低于30/70,机器学习将很难进行。这样的数据不仅使训练更难(更少的例子=更少的学习),而且也更难实际诊断(系统在预测多类问题时有一些噪音)。但是,我们发现课题组也在努力解决这个问题。在人群筛查期间,“参考”疾病的患病率低于10%,因此这是一项高度不平衡的任务。因此,他们用额外的阳性案例扩充了训练数据集,使患病率达到30%。通过这种方式,提高了训练效果。此外,该系统在验证数据上表现良好,临床普遍性约为8%。然而,这种放大较少数据类型的方法只有在有更多阳性案例的情况下才会奏效,而这种情况并不经常发生。现在有一些处理不平衡数据的方法,但是还没有找到一个最优的处理不平衡数据的方法。这里还有两个关于数据质量的比较有趣的现象。首先是数据的下采样。当像素比人类观察到的图像少98%时,这个系统能否观察到与人类相同的结果?可以肯定地说,这个系统真的可以做到。当然,前提是大部分被丢弃的像素必须是无用的噪声信息,否则会使深度学习系统的训练过程更加困难。人类比计算机更善于忽略视觉噪音。这个意义其实更深远,因为深度学习系统在很多场合都被用来处理小图,但是对于百万像素的大图的处理却一直没有很好的效果**。事实上,高分辨率图像可能包含更多有用的信息,但不适合深度学习系统。下采样的想法引发了一系列讨论问题:深度学习能否对高分辨率图像有更好的训练效果?低分辨率图像是否适合所有医疗任务?从技术角度看,我们可以在深度学习中使用高分辨率图像吗?我不知道这些问题的答案,但在接下来的几周内,我们将阅读其他论文来阐明这些问题的答案。关于数据质量的第二个有趣的事情是注释的质量。在机器学习中,我们需要非常准确的信息。换句话说,我们希望训练数据能够被正确标记。例如视网膜病变的训练数据应该是真实的视网膜病变。这些理论说起来容易,但在实践中,医生对疾病的诊断往往意见不一。因此,该论文的作者只是提供了数据。从这张图中可以看出,对于中度或更严重的疾病,有80%的可能性至少有一位医生得出与其他医生不一致的结论!因此,使用一致的标签就是为了减少可能的人为错误。然而,数据集中的标签错误很难避免并危及模型性能。深度学习可以学习你给它的任何东西。反之,如果标签有问题,深度学习机器很容易误判。拥有一个共识注释并不是解决这个问题的唯一方法。一些任务可能有更准确的信息,例如我们将在下周看到的关于皮肤损伤的论文。本文中的每个病变都有病理学家给出的活检确诊,但几乎没有差异。在极端情况下,某些任务具有完美的标签。我自己的一个项目专注于一个不会被误解的标签——死亡率。我觉得标签的关键是你得到的和你付出的成正比。如果你用个别医生的标签,至少你可以和这个医生一样好。如果你使用共识数据,你会比他们中的任何一个都好。如果您完整地使用更正信息,您可能完全可以完成这项任务。影响:由衷地佩服作者们提出了医疗机器人作为疾病筛查工具的想法。它们表明机器的性能与眼科医生一样好(误报率较低,但缺少一些阳性病例),还显示了系统优化筛查时的结果(识别出几乎所有阳性病例,但也有一些误报).这些系统比医生有一个主要优势:人类医生在假设的ROC曲线上有一个单一的操作点,这是根据他们的经验在敏感性和特异性之间取得平衡,并且很难以任何可预测的方式使用。改变。相比之下,深度学习系统无需额外训练即可在ROC曲线上的任何位置运行。您可以在诊断模式和筛查模式之间自由切换,无需额外费用,灵活性非常棒!在实际临床试验中非常有用。考虑到监管部门,这项研究已经接近临床使用水平。他们在从真实医疗护理中筛选出的数据集上验证了模型,每个病例有多个参与者。这被称为MRMC研究,也是FDA对计算机辅助检测系统的一般证据标准。虽然我们不知道这项研究与诊断系统有何关系,但如果该系统或类似系统在过去两年内获得FDA批准,我不会感到惊讶。就医疗费用而言,这项任务仍然艰巨。眼科不是医学的很大一部分,眼科检查的费用也不贵。如果这项利用人工智能进行眼病筛查的技术能够得到推广,对人类的影响将是非常大的。糖尿病在许多发展中国家呈上升趋势,但眼科专家供不应求。鉴于低分辨率图像的图像处理成功率很高,将该系统与低成本且易于使用的手持式视网膜相机相结合可以挽救数百万人的生命。然而,即使人工智能能够取代医生对视网膜病变的评估,其对医疗工作的影响也将是有限的。此外,我认为自动化视网膜病变筛查很容易导致医生的工作量增加,因为以前未确诊的患者现在也需要进一步评估和治疗。目前我们只讨论了视网膜病变的评估,在我们再看几篇论文之后,我们将能够探索医疗自动化轨迹的含义。接下来,我将查看斯坦福大学的论文,他们声称已经训练了一个深度学习系统来“分类皮肤癌”。眼科医生结果在曲线上的分布让我感到惊讶,因为不同的医生可以做出截然不同的预测。一些医生认为有0个假阳性,而另一些医生认为有10%的假阳性。这是一个巨大的错误余地。已经使用了一些解决方案,比如先对图像进行切片。但这通常会大量增加负样本的数量,加剧数据不平衡的问题。