当前位置: 首页 > 科技观察

帝国理工学院:如何用AI解决80%专科医生担心的心律装置移植手术难题

时间:2023-03-21 15:23:11 科技观察

伦敦帝国理工学院的研究人员开发了一款基于AI的软件,目前称为PPMnn(起搏器神经网络)识别起搏器或除颤器的品牌和型号。研究结果发表在美国心脏病学会(JACC):临床电生理学杂志上。本文介绍了基于神经网络的系统的开发、验证和有效性。背景全世界每年有超过一百万人接受心律装置移植。在移植过程中,医护人员通常会通过一些算法来辅助自己识别设备的X图,进而确定起搏器或除颤器的制造商。和模型。但即使使用最高效的算法,识别也没有缺陷,错误会导致治疗延误。事实上,多达80%的心脏病学相关专家表示,他们“经常”难以识别设备。研究人员提取了来自5个制造商的45个型号的1676台设备的X射线图像。使用1451张图像作为训练集,构建了一个卷积神经网络对图像进行分类。测试集还包含剩余的225张图像,包括每个模型的5个样本,并将神经网络识别设备的能力与心脏病专家的能力进行比较。结果表明,神经网络在识别制造商设备方面的准确率为99.6%(95%置信区间:97.5至100),模型的准确率为96.4%(95%置信区间:93.1至98.5)。5名心脏病专家平均有72.0%(范围,62.2%至88.9%)正确识别制造商,并且无法识别型号。可以看出,基于神经网络的识别能力明显优于所有心脏病专家。方法数据提取在本研究中,数据集选自1998年2月至2018年5月期间植入帝国理工学院医疗保健NHS信托基金的心率监测器图像。训练神经网络需要足够的类样本,每个类至少包含25张图像,包括便携式和部门AP/PA胸片,不包括侧位胸片。图像是从连续的病例患者中提取的,每个模型最多40张图像,以最大限度地减少类别不平衡。从每个X射线图像中,分割出一个比设备稍大的正方形区域,从而提高了网络的信噪比。然后将这些裁剪后的图像调整为224×224像素,并归一化以获得介于0和1之间的像素值。提取时注意,在某些情况下,如果厂商推出了新型号,但在X射线图像上没有检测到变化,则可能只是设备软件更新,或者外观上几乎相同的部件无法区分。它从45个类别中随机分配5张图像作为“测试集”,在网络的任何训练阶段都不会使用,只有在最终验证准确性时才会使用。剩余的“训练集”用于在两个不同的阶段训练网络:一个是决定使用哪个底层网络(包括结构特征,例如层数和大小)和训练速度(称为“学习率”))。这些卷积神经网络,类似于人脑的层次结构,解决图像分类问题;第二阶段是调整权重对起搏器进行分类的详细过程。这两个阶段都使用训练集,但方式不同。在网络训练阶段(如图1所示),每个神经网络候选模型从75%的训练集中学习,并正确预测剩余25%的训练集。这样重复4次,让所有的训练集轮流扮演两个角色。这个过程称为“4折交叉验证”。图1网络设计流程图第二阶段基于前一阶段选择的神经网络模型开始,但使用整个训练集对网络进行训练,得到最终的神经网络模型。这个训练有素的网络模型暴露在一个“测试集”中,该测试集在整个过程中保持独立,以评估其正确分类品牌和型号的能力。该研究获得了卫生研究局的监管批准(综合研究应用系统ID249461)。卷积神经网络架构和训练我们评估了五种不同的卷积神经网络架构(DenseNet、InceptionV3、VGGNet、ResNet和Xception),在重新训练整个模型时使用在ImageNet上训练的权重对。所有网络都已初始化。对于每个网络,输出层设置为45个密集连接的神经元(对应于每个设备模型1个)。使用交叉熵损失函数对其中的16张图像执行损失计算,并使用ADADELTA优化器更新权重。损耗是用来评价网络性能和提高网络性能的技术指标。损失比简单错误率(准确率的倒数)更敏感,因为为了获得完美分数(零损失),网络正确预测每个起搏器图像的100%。神经网络的训练是一个自动调整权重使损失最小化直到损失函数达到稳定的过程。使用Tensorflow和Keras机器学习框架使用Python编程语言进行编程。对每个示例进行可视化处理以提供特征图,其中具有较高梯度的像素对应于正确的类别(突出显示对网络决策贡献更大的像素),这可以使用Keras-vis软件完成。算法辅助专家测试向五位心脏病专家(其中两位是电生理学家)提供了225张图像的测试集,以及心律识别算法CaRDIA-X(3)。该算法只区分制造商,不区分具体型号。对于每个图像,它是心脏起搏器、除颤器还是循环记录器是已知的。我们要求评估者将每台设备分类为Biotronik、BostonScientific、Medtronic、Sorin或St.JudeMedical。借助CaRDIA-X算法对神经网络测试结果和厂商专家分类结果进行统计分析比较。使用McNemar检验进行评估,p值为0.05作为统计特征的阈值。参考各专家的评价结果??计算平均准确率。精度定义为测试集中正确分类的图像数量除以测试集中图像总数。使用二项式方法计算精度的置信区间。对于大小不等的制造商类别,还计算了F1分数,定义为精度和召回平均值的两倍,范围在0和1之间。使用Fisher精确检验评估不同子组的网络准确性。Welch不等方差t检验通过计算每幅图像的拉普拉斯方差来评估部门和便携式射线照片之间图像清晰度的差异,并使用R软件进行统计分析。结果数据集该数据集包括来自1575名患者的不同设备的1676张图像。虽然有66种不同的设备型号,但其中一些在视觉上无法区分,这可能只是设备中的软件更改。共有45个模型组,278张X光图像来自便携式设备,其余1398张是部门AP。测试集中的45个模型中的每一个都由5个样本组成,总共有225个样本。(左)条形图显示了5名人类记者和神经网络在识别设备制造商方面的相对准确性。p值是指神经网络相对于中值和人类分数的优越性。(右)混淆矩阵显示网络在预测正确设备制造商方面的准确性。BIO=Biotronik;BOS=波士顿科学;MDT=美敦力;SOR=索林;STJ=圣裘德。Stage1:不同神经网络架构的性能对比对于所有的网络模型,经过stage1的训练,网络的性能都达到了一个稳定的状态,损失函数也下降到了一个稳定的水平。VGGNet的准确率为4.4%,Xception的准确率为91.1%。第一阶段的结论是为第二阶段Xception架构的选择打下基础,预先指定训练epoch为15。然后第二阶段开始一个全新的Xception神经网络,使用全训练集1451张图像。使用第二阶段产生的最终神经网络对“测试集”数据进行测试验证。第2阶段:神经网络性能的“测试集”验证最终的神经网络以99.6%的准确度识别设备制造商,对应于0.996的F1分数。性能如图1所示。错误分类的图像是MedtronicAdapta设备被误认为是SorinReply设备。不可避免地,识别模型组(而不仅仅是制造商)的性能较低,准确率为96.4%(95%CI:93.1至98.5),F1分数为0.964。值得注意的是,在其中8个预测中,正确的模型是前3个预测中的1个。因此,通常被描述为“前3名”的准确度为99.6%(95%CI:97.5至100.0)。模型识别矩阵便携式射线照片的模型识别准确度为89.5%(95%CI:75.2至97.1),部门射线照片为97.9%(95%CI:94.6至99.4)(组间差异p=0.029)。然而,制造商的错误分类是部门X射线图像。起搏器组的准确度为95.0%(95%CI:90.4-97.8),ICD组的准确度为96.4%(95%CI:87.5-99.6%)(组间差异p=1.00),准确度在制造商之间的显着差异(p=0.954)。与医学专家的性能对比五位心脏病专家使用CaRDIA-X算法对来自5个制造商的225个测试集图像进行了分类。他们的准确率从62.3%到88.9%不等,平均准确率为72.0%,神经网络明显优于专家。视觉分析在另一个探索性分析中,我们为测试集中的每个图像生成特征图,显示它们描述的心率计的特征,类似于临床医学中的疾病症状。图3显示了包含2个不同模型的4张图像,图4显示了AT500设备的特征图,显示了设备周围的环形电路板组件。图3图4讨论这是一项使用人工智能从X射线图像中识别心脏节律设备的研究。神经网络在识别设备制造商方面具有更高的准确性。对于前所未见的图像,网络识别设备制造商的准确率为99.6%,而专家的准确率为62.3%至88.9%。临床应用在某些临床应用中,拥有一种更快、更可靠(至少与心脏病专家一样)的工具将大有裨益。医生使用它通过简单的胸片快速评估心脏设备的特性。因为只有特定的制造商才能与患者的设备进行通信,知道携带哪个编程器可以节省宝贵的临床时间,允许在紧急情况下快速访问设备以提供紧急治疗。机器学习:特征图在图3中,包括心脏病专家在内的大多数人都难以区分两种型号的起搏器。然而,不仅神经网络可以准确区分它们,特征图还可以突出区分它们的最明显特征。此外,一旦指出这一显着特征(图4),就很容易区分。网络架构极大地影响性能表2显示了不同神经网络架构的性能水平,VGGNet在这个任务上表现不佳。ResNet设计有“残差连接”,一种使原始图像可用于网络所有后续层的方法。GoogLeNetInception使用“1×1卷积”来压缩层与层之间的信息,大大降低了网络的复杂度。性能更好的设计是Xception,它大量使用了“residualconnections”和“1×1convolutions”这两项创新。局限性神经网络可以识别英国常用的设备,但不能适应所有设备。当然,网络可以不断扩展,训练神经网络只需要来自新设备的25个样本。有时,神经网络也会得出错误的结论。虽然选网正确率为96.4%。但是(巧合的是)在99.6%的情况下,正确的模型是前3个预测中的1个。所有神经网络都存在“过度拟合”的风险。我们尝试通过两种方式将过度拟合的风险降至最低。首先,网络的性能定义为其在未经训练的“测试集”上的准确性。其次,网络中包含了各种“正则化”方法,例如dropout和权重衰减。将神经网络从“工作台到床边”部署起来可能很困难,因为在护理点并不总是需要大量的处理能力。我们通过提供任何人都可以使用的在线门户网站来缓解这种情况。结论本研究表明,卷积神经网络可以从射线照片中准确识别心律装置的品牌和型号。此外,它明显优于使用流程图的心脏病专家。医疗能力:机器学习和人工智能在医疗领域快速发展,尤其是在医学图像分析领域。我们的方法将加快患者的诊断和治疗。本文还展示了神经网络如何越来越多地处理大量医疗数据(整个医疗保健系统),以及未来的患者护理如何越来越依赖于计算机辅助决策。结果转化:将计算机实验室的机器学习结果转化为实际应用通常很困难。通过研究,我们提供了一个在线教育门户网站,医生可以在其中与网络在线互动。与以往一样,进一步的临床研究对于评估神经网络的准确性至关重要,然后才能将其部署为有效工具。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。