这种在Nature封面上的grouplearning不需要一个centralcoordinator就比federatedlearning要好。如今,在一些疾病的诊断领域,人工智能的准确率已经超越了医生。可靠的诊断结果背后是建立在海量数据集上的机器学习。但实际上,可用于训练的医疗数据非常分散,试图从世界各地收集数据会引发对数据所有权、隐私、机密性、安全性的担忧,甚至会引发数据垄断的威胁……常用的联邦学习等方法可以解决上述部分问题,但模型的参数由“中央协调员”处理,导致“权力”集中,其星型架构也导致容错性降低。没有好的解决办法吗?是的,Nature的封面为我们公布了一种新的机器学习方法,叫做SwarmLearning(群学习,SL)!该方法结合了边缘计算,一种基于区块链的点对点网络,无需“中央协调员”,并且超越了联邦学习,可以在不违反隐私法的情况下聚合来自世界任何地方的医疗数据。研究人员使用四种异质性疾病(结核病、COVID-19、白血病和肺部病变)来验证SwarmLearning方法使用分布式数据诊断疾病的可行性。如何实现?小组学习方法采用分散式架构,采用私有许可区块链技术实施。整个Swarm网络由多个Swarm边缘节点组成,节点之间通过边缘节点共享参数,每个节点使用网络提供的私有数据和模型来训练自己的模型。该方法提供安全措施,通过私有许可的区块链技术支持数据的所有权、安全性和机密性。其中,只有预授权的参与者才能加入,新节点的加入是动态的。通过适当的授权措施识别参与者,并通过区块链智能合约进行注册,让参与者获得模型并进行本地模型训练。直到本地模型训练到满足定义的同步条件后,才可以通过SwarmAPI交换模型参数,合并新的参数配置,在新一轮训练开始前更新模型。△分组学习与其他机器学习方法的架构对比因此,这种分组学习方法具有以下特点:可以将数据拥有者的医疗数据保存在本地;不需要交换原始数据,因此可以减少数据流量(datatraffic);可提供高级别的数据安全保护;在没有中央管理员的情况下安全、透明和公平地加入去中心化成员;允许所有成员以平等的权利合并参数;保护机器学习模型免受攻击。为了验证基于分布式数据开发诊断功能的方法的可行性,研究人员用它来诊断四种疾病。区分轻度和重度COVID-19,优于单淋巴结首发白血病。研究人员将12000多个样本数据“隔离”到每个节点,以模拟现实世界中分布在世界各地的医疗中心。然后通过分组学习对这些数据进行训练,然后对未知患者进行诊断。他们发现,无论每个节点的样本分布如何变化,组学习方法的诊断准确率都优于单个节点。然后使用分组学习来识别肺结核或肺部病变患者,结果是一样的,并且在减少训练样本数量后,虽然分组学习的预测效果有所下降,但仍然优于任何单个节点。紧随疫情,研究人员还测试了小组学习对新冠病毒诊断的效果。结果表明,小组学习在区分轻度和重度COVID-19方面优于单个节点。最后,研究人员表示,分组学习作为一种去中心化的学习方式,有望取代目前机构间医学研究中的数据共享模式,帮助AI在保证数据隐私的同时获取更丰富、更全面的数据。AI疾病诊断准确率更高。论文地址:https://www.nature.com/articles/s41586-021-03583-3GitHub代码:https://github.com/schultzelab/swarm_learning
