本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。近日,由新加坡国立大学、字节跳动智创新加坡团队等机构联合研发的一项技术成果被世界顶级学术期刊《自然》子刊《自然神经科学》收录。该研究首次将人工智能领域的元学习方法引入神经科学和医学领域,可以在有限的医学数据上训练出可靠的AI模型,提高基于脑成像的精准医疗效果。研究背景脑成像技术是神经科学发展的一个重要领域。它可以直接观察大脑在信息处理和对刺激的反应过程中的神经化学变化,从而为疾病的诊断和治疗提供重要参考。理论上,基于脑成像的机器学习模型可以应用于预测个体的一些非脑成像表型,如流体智力、临床结果等,从而促进个体的精准医疗。一个实际问题是,虽然有英国生物银行这样的大规模人类神经科学数据集,但在研究临床人群或解决关键神经科学问题时,几十到几百人的小规模数据样本仍然是常态。由于精确注释的医学数据数量有限,很难训练出可靠的机器学习模型来预测个人表征属性。论文提出了一种新的思路来解决这种数据稀缺带来的根本局限:给定一个具有多个表征特征的大规模(N>10,000)脑成像数据集,可以将在上面训练的机器学习模型迁移到一个独立的具有新表征特征的小规模(N<200)数据集,使得在新数据集上训练的模型能够准确预测新的表征特征。方法通过对以往小样本数据的分析,研究人员发现个体的认知、心理健康、人口统计学等健康属性与脑成像数据之间存在内在相关性。这意味着小数据集中的一些独特表型可能与大规模数据集中一些预先存在的特定表型有关。利用这种相关性,研究人员提出了一种新的基于元学习的元匹配方法,建立了一种框架机制,可以利用大规模脑成像数据集来促进小数据集中一些新颖和未知表型的预测,从而训练可靠的机器表征属性预测的学习模型。论文提出了一种新的元匹配方法来解决在小规模数据集上训练表征特征预测模型的问题。元匹配是一种高度灵活的学习框架,可用于各种不同的机器学习方法。论文主要研究元匹配方法在核岭回归(KRR)和全连接深度神经网络(DNN)中的应用。在元匹配学习框架中,将大规模训练数据分为元训练集(trainingmeta-set)和元测试集(testingmeta-set)。这两个数据集包含不同的个体注释和表征特征。元训练集用于训练DNN预测模型,而元测试集用于评估当前DNN模型对新表征特征的预测精度(即泛化性能)。具体地,随机选取K(K<5)个数据作为测试样本。而一个在元测试集上表现最好的DNN输出节点(outputnode)将被保留,而其他节点将被移除。之后,在K测试个体数据上,微调(fine-tune)保留节点前节点与DNN模型连接的隐藏层参数。请注意,与一般的元学习或微调策略不同,这里仅对DNN模型中的一个子网络进行微调,而不是对整个模型参数进行微调。这个过程将重复M次,直到DNN模型预测元测试集上的稳定性。完成上述元训练过程后,得到的DNN模型对新的预测任务具有很强的泛化能力。该模型可以直接迁移到一个新的特征特征数据集,并用少量标记样本进行训练,可以有更好的预测性能。实验设置论文在UKBiobank和HumanConnectomeProject数据集上进行了评估。所有数据的使用均已获得相关研究部门的批准。其中,UKBiobank包含36,848名参与者的结构MRI和静息fMRI脑成像数据,以及筛选出的67个非脑成像特征。HCP包含来自1,019名参与者的结构MRI和静息fMRI数据,并筛选了58个特征特性。筛选的表征属性涵盖认知、情感和个性。UKBiobank数据集被用作使用元匹配训练预测模型的训练集。它被随机分为元训练集(26,848名参与者,33种表示)和元测试集(10,000名参与者,34种表示)。HCP数据集作为测试集,测试预测模型对新的表征特征的预测准确性。它被随机分为K名参与者进行训练和(1,019-K)名参与者进行测试。K的值分别为19、20、50、100和200。△图HCP表表型特征示例实验结论在ConnectomeProject的1,019名参与者的样本评估中证明了有效性。BioBank测试集的性能超过了经典的核岭回归(KRR)。下图是在UKBiobank元测试集上基于Pearson相关系数的准确度对比。在所有样本量设置(K值)上,所提出的元匹配方法在34个特征特征(错误发现率FDRq<0.05)方面显着优于经典KRR方法。例如fMRI研究中常见的样本量K=20(20-shot),基本DNN元匹配方法的准确率超过KRR100%(0.124vs.0.052)。并且如果使用行列式系数(COD)作为性能指标,DNN元匹配方法超过KRR400%。在HCP小规模新数据集上明显超越KRR。为了测试元匹配在新的测试集上的性能,论文进一步测试了其在HCP数据集上的性能。还发现所提出的元匹配方法的准确性大大超过了经典的KRR方法。例如,当K=20时,元匹配方法的准确率超过KRR100%(0.123对0.047)。当K=100时,以COD为指标,元匹配方法的准确率超过KRR800%。讨论与总结考虑到所提出的元匹配方法利用表征特征之间的相关性来辅助预测,其背后的预测机制可能是非因果的。那么这个研究的主要目标就是提高预测精度,而且即使是非因果预测,得到的预测模型也有很多应用场景。例如,抗抑郁药至少需要4周才能起效,而且只有不到50%的患者对首剂反应良好。因此,即使是非因果预测,提高性状的预测能力也具有重要的临床价值。本文提出的元匹配方法是基于机器学习领域的元学习、多任务学习和迁移学习。例如,先训练然后微调DNN模型可以被认为是迁移学习的一种形式。但值得注意的是,实验表明,准确率最大的提升来自论文提出的核心算法——元匹配。当然,更先进的机器学习算法有望在这个方向上带来更大的预测精度提升。虽然最初的脑成像数据集来自年轻健康的成年人,但越来越多的数据集侧重于不同的人群,如老年人、儿童、不同的疾病等。论文提出的方法也可用于表征性的预测未来其他人口数据集的属性,例如最近的ABCD数据集,包括心理健康症状。字节跳动智能创作团队是字节跳动的音视频创新技术与业务中心,涵盖机器学习、计算机视觉、图形、语音、拍摄剪辑、特效、客户端、服务器工程等技术领域。实现了前沿算法-工程体系-产品全链路闭环,旨在为公司内部业务线和外部合作客户提供行业前沿的内容理解、内容创作、交互体验和消费能力及行业解决方案各种形式的计划。智创基础研究团队旨在探索机器学习、计算机视觉、自然语言处理等前沿技术,解决人工智能领域具有挑战性的问题。NatureNeuroscience是神经生物学领域的顶级期刊之一。该杂志发表的论文涵盖神经科学的所有领域,包括分子、细胞、系统、行为、认知和计算研究。
