当前位置: 首页 > 科技观察

改造机器学习:构建面向多学科问题的机器学习新生态

时间:2023-03-22 16:01:35 科技观察

机器学习方法越来越多地应用于生命、物理、社会经济等复杂系统中。如何针对特定任务选择合适的机器学习方法,如何综合利用各种机器学习方法并发挥其长处,已成为机器学习领域的热点问题。最近发表在PNAS上的一项研究开发了一种称为转换机器学习的方法,它可以综合利用多个相关任务的数据和多种学习方法来提取训练模型中不同来源编码的先验知识,特别适用于科学研究领域对可解释性有强烈需求,比如药物设计。更具普适性的是,TransformationalMachineLearning为机器学习生态系统的构建提出了新的思路。学习任务、示例、方法、预测结果和元学习可以相互促进,共同提高机器学习生态系统中所有任务的性能和性能。可解释性。论文标题:Transformationalmachinelearning:Learninghowtolearnfrommanyrelatedscientificproblems论文链接:https://www.pnas.org/content/118/49/e2108013118目录摘要意义1.TransformationalMachineLearning简介2.TransformationMachineLearning与其他方法的比较3.TransformationMachineLearning可以改进原有算法4.TransformationMachineLearning的可解释性5.TransformationMachineLearning与深度神经网络的比较6.构建机器学习的生态系统7.Datasets,codesand模型的开源翻译名词对比几乎所有的机器学习都是基于内在特征来表示训练数据。当存在多个相关的机器学习任务(问题)时,可以先在目标任务以外的其他任务上训练机器学习模型,将内生特征转化为外在特征,将训练好的机器学习模型在目标实例上的Prediction中使用生成一个新的表示,我们称之为转换机器学习(transformationalmachinelearning,TML)。转换机器学习与迁移学习(TL)、多任务学习(MTL)和堆栈密切相关并具有协同作用,可用于改进任何非线性机器学习。我们使用最重要的非线性机器学习类别评估转换机器学习:随机森林(RF)、梯度提升机(XGB)、支持向量机(SVM)、k最近邻(KNN)、神经网络(NN)。为了确保评估的普遍性和稳健性,我们利用了来自三个科学领域的数千个机器学习问题:药物设计、基因表达预测和机器学习算法选择。我们发现转换机器学习显着提高了所有领域所有机器学习的预测性能(平均4%到50%),并且转换机器学习识别的特征通常优于内生特征。将机器学习转化为可解释的机器学习也可以增加科学理解。在药物设计中,我们发现转化机器学习为药物-靶标特异性、药物-药物关系和蛋白质-靶标关系提供了新的见解。转换机器学习创建了一种基于生态系统的机器学习方法,其中协同新任务、实例、预测等以提高预测性能。机器学习是人工智能的一个分支,其目标是开发可以从经验中学习的计算系统。在有监督的机器学习中,机器学习系统从标记的数据中派生出一个可泛化的模型,该模型可以预测未见数据的标签。数据通常以直接描述实例的特征为特征。例如,在药物设计中,机器学习将以药物的分子结构为特征。在存在多个相关的机器学习问题时,可以使用不同类型的特征,即机器学习模型对其他问题下的数据进行预测,我们称之为迁移机器学习。我们表明,当应用于科学问题时,这种范式会带来更好的可预测性和可理解性。1.变革性机器学习简介机器学习开发了从经验中学习的计算系统。它在科学中的应用历史悠久[1-4],最早的机器学习程序之一是Meta-Denral,它使用机器学习来改进质谱数据分析[5]。机器学习对科学的重要性已得到广泛认可,并被用于几乎所有科学领域,例如药物发现[6]、有机合成规划[7]、材料科学[8]、医学[9]等。大多数机器学习使用特征元组来表示训练数据,例如数据可以放在一个表中,每一行代表一个实例,每一列代表一个特征。实例的特征也可以称为属性。目前,实例的特征几乎都是内生属性。例如,如果人们希望了解一种药物的药理活性,那么该药物的分子结构就是一个有用的属性。通常,选择一个特征作为预测变量,其他属性为预测提供信息。如果要预测的属性是标签,那么这是一个判别/分类任务;如果要预测的属性是实数,那么这是一个回归问题。本研究主要讨论回归问题。当有多个相关的机器学习任务时,也可以使用外生特征:使用在其他任务上训练的机器学习来预测目标实例。我们称之为转换机器学习。转换机器学习将基于内生属性的表示转换为基于模型其余部分预测的外生表示。正如我们接下来将讨论的,迁移机器学习与迁移学习、多任务学习和叠加学习密切协同。它允许模型利用它在其他相关任务中学到的知识,而无需从头开始学习。因此,转换机器学习属于元学习的范式,可以改进任何非线性机器学习算法,尤其适用于有很多相关的小学习任务的场景。直观上,以识别多种动物的学习任务为例。如果需要识别多只动物,并且要添加物种,则为每个物种使用单独的分类器比使用一个大型分类器更有意义。标准的机器学习方法使用内生特征(例如动物是否有皮毛、皮毛的大小)来训练分类器。转换机器学习从标准方法(图1A左)开始学习各种动物的预测模型,并使用基于这些模型的预测来表征各种动物。例如,在通过标准方法获得像马、像猫和像兔子的表示后,训练(元)机器学习模型(图1A右)。转换机器学习适用于所有机器学习任务共享一组内生特征和目标变量的领域,这在科学研究中很常见,例如在药物设计中,化合物的分子表示需要与目标(蛋白质)相匹配(图1B)。转化机器学习的有效性在于利用先前训练模型中编码的有关世界规律的知识。图1A。标准机器学习和转换机器学习在预测动物物种方面的比较。转换机器学习通过三个机器学习任务的示例进行说明:预测动物是驴、猫还是兔子。标准机器学习使用身体大小、耳朵和可食用性等内生特征构建预测模型:驴()、兔子()、猫()。将内生特征输入模型兔(),输出该动物是兔子的概率。这三个模型的结果将作为训练转换机器学习的外生特征。直觉上,可以看出转换机器学习的表征是有意义的,因为兔子和驴的相似之处在于它们都有长耳朵,而兔子和猫的相似之处在于它们既小又可爱。因此,转换后的外生表示能够捕捉到原始描述未涵盖的特征,例如它是否可爱,以及眼睛是否位于头部两侧(兔子和驴共有的特征)。图1B。QSAR(定量构效关系)学习。给定目标(通常是蛋白质)和一系列化合物(小分子)及其相应的活性(例如抑制特定蛋白质),QSAR预测模型学习从化合物的分子表示到活性的映射。图1C。QSAR上标准机器学习和转换机器学习的比较。使用标准机器学习,每个目标都与多种药物内源性特征相关联,例如特定分子群的存在或不存在,并且模型经过训练以将分子表征映射到活动。2.转换机器学习与其他方法的比较转换机器学习与其他机器学习方法非常相似。但是,之前尚未系统地评估特定的迁移机器学习概念。迁移机器学习与多任务学习非常相似[10]。多任务学习是“一种以相关任务训练数据中包含的领域信息为归纳基准,提高泛化能力的归纳迁移方法”。在多任务学习中,同时学习相关问题(任务),目的是利用问题之间的相似性来提高预测性能。多任务学习通过与共享表示并行训练来实现这一点;从每个任务中学到的知识可以帮助其他任务更好地学习[10]。多任务学习和迁移机器学习有两个主要区别:多任务学习的训练通常是并行的,而迁移机器学习通常是一个一个地训练;迁移机器学习跨任务共享数据表示,而多任务学习使用单一模型。转换机器学习也与迁移学习密切相关[13]。迁移学习将信息从源特定问题迁移到目标特定问题。迁移学习的思想是从一个或多个源域中提取知识,并在数据稀缺的目标域中重用这些知识,从而在目标域中构建性能更好的学习模型。但是迁移学习通常不同于迁移机器学习,因为迁移学习只针对一个源任务,而迁移机器学习需要处理多个源任务。迁移学习已成功应用于药物设计,一些前瞻性应用证明了其有效性[15]。转换机器学习也非常类似于叠加学习[16,17],这是一种集成机器学习算法。叠加学习结合了多种算法,以实现比单独使用任何一种算法更好的预测性能。当堆叠多个基线模型时,首先训练基线模型,然后使用基线模型的输出来训练元模型。迁移机器学习和覆盖学习的主要区别在于,迁移机器学习是在一大组相关任务上训练的,每个任务对应的训练集可能不同。然而,在叠加学习中,不同的基线模型通常针对同一任务进行训练。3.Transformationalmachinelearning可以改进原始算法Transformationalmachinelearning适用于非线性机器学习的任何改进。为了评估转换机器学习,我们选择了5种机器学习[1-4]:随机森林(RF)[21]、梯度提升算法(XGB)[22]、支持向量机(SVM)[23]、k-最近邻(KNN)[3]和神经网络(NN)[3,4]。为了确保审查的普遍性和稳健性,我们利用了来自三个重要科学问题类别的数据——药物发现(QSAR学习,即定量构效关系)、类基因表达预测(跨不同组织类型和药物治疗)、元机器学习(预测机器学习方法解决问题的能力)——数以千计的机器学习任务。对于每种机器学习方法和每个问题领域,我们比较了转换机器学习和基线机器学习算法的性能。我们研究了两种形式的预测改进:强改进和联合改进。一个很大的改进是,当使用新的转换后的机器学习特征时,得到的预测比使用基于基线(内生)的特征的预测更好。联合改进是使用基线特征作为新的转换机器学习特征来提高预测性能。为了增强转换机器学习的预测性能,我们使用最简单的堆叠方法:合并预测结果。我们发现,转换机器学习显着提高了所有三个领域中所有方法的平均预测性能(从4%到50%),即,在新的外生特征上训练的模型通常优于在内生特征模型上训练的模型(表1)。表1.预测结果,表中数值为均方根误差(RMSE)。加粗的数值是在某个应用场景下的最优结果。基准测试结果是使用标准内生表示和相应的机器学习算法获得的。转换机器学习使用外生表示来得出结果。均方根误差是每个应用领域中数千个任务的平均值。我们测试了两种堆叠方法:凸方块(非负最小值)和岭回归。我们使用了两个显着性检验:t检验和Wilcoxon检验。两种方法都测试了标准方法和转换机器学习的均方根误差差异是否显着(p<0.05),前者测试了两种方法的均方根误差中位数是否存在统计差异,而后者后者作者测试了两种方法的均方根误差是否存在统计差异。几乎所有的统计方法和机器学习方法都已应用于QSAR问题[23],但尚未找到单一的最佳方法[24,25]。QSAR非常适合应用转换机器学习,因为药物分子表征可以通过相关的靶蛋白进行关联。例如,小鼠和人类抑制二氢叶酸还原酶(DHFR)的问题是相似的,因为两者具有相似的配体结合位点[活性中心][26],并且它们涉及相同或相关的分子[26-28]。为了评估QSAR学习的迁移机器学习,我们使用了2219个QSAR问题[24、25]。QSAR基准(内源)表示是1024位分子指纹表示,已被证明是有效的[25]。对于每个基准机器学习算法(RF、SVM、k-NN和NN),我们使用先前训练的模型预测的复合活动来获得转换机器学习的外生特征。然后使用基准机器学习方法训练QSAR模型。在所有方法中,变换机器学习的预测性能都优于基线算法。相关结果见表1。我们发现整体效果最好的是带有梯度提升机的变换机器学习模型,与基线梯度提升机相比,结果提高了7%,其次是带有神经网络叠加的变换机器学习模型。值得注意的是,该数据集已被广泛研究[18种学习方法和6种分子表示[25]],迁移机器学习明显优于之前的最佳结果。对于第二个问题领域,我们使用了基于集成网络的细胞特征数据库(LINCS)[29],它描述了在118,050个实验条件下测量的978个标志性人类基因的表达水平。我们将机器学习任务视为为每个基因建立模型,预测其在给定实验条件(细胞类型、药物和剂量)下的表达水平。基因表达预测问题也适用于转化机器学习,因为存在可用于改进预测的基因间关系(同源性、共同信号通路等)和实验条件间关系(药物相似性等)表现。使用与QSAR问题相同的方法,我们使用随机森林、支持向量机、k最近邻和神经网络进行比较评估,比较使用内生表示和转换机器学习表示的模型,结果如表1所示.在所有方法中,使用迁移机器学习的模型都优于基线机器学习。我们发现随机森林的整体结果提高最多,与基线相比提高了4%,其次是梯度提升机和支持向量机模型。评估问题的第三个领域来自机器学习,其中的基本问题是为新任务选择最好的机器学习算法。机器学习是解决这个问题的有效方法,被称为元机器学习。机器学习模型的任务是:给定训练数据的特征(例如训练数据的统计分布),学习一个元模型来预测机器学习算法在新任务(给定特定的任务)上的性能任务)。这种情况也适用于转换机器学习,因为机器学习任务可以通过具有相似的数据分布和数据属性(例如缺失值)或通过包含相似过程生成的数据来关联。从OpenML[31]中,我们对351项任务和53种机器学习方法进行了10,840次评估,产生了351项元学习任务,结果如表1所示。使用转换后的机器学习特征的算法优于基线机器学习算法所有方法。总体来说,最大的提升是随机森林使用了transformationmachinelearning,比使用内生特征的算法提升了50%。使用转换后的机器学习特征的梯度提升机也显示出与基线算法相似程度的改进,对于支持向量机和神经网络,在使用转换后的机器学习特征后也有性能提升。对于k-NearestNeighbors,堆叠转换后的机器学习特征效果最好。与之前描述的场景相比,使用转换后的机器学习功能,预测性能的百分比提高要大得多。这可能是因为原始(内生)特征对训练数据集的描述很差,而转换后的机器学习特征在不同任务中编码了更多关于算法的隐式信息。此外,与以前的场景相比,预测的性能在实验上的噪音较小。4.转变机器学习的可解释性机器学习的一个越来越重要的分支是可解释的人工智能,因为在许多应用程序(例如医学或金融)中,有必要使预测可以理解。在科学领域,可解释的机器学习预测模型会带来新的科学知识。机器学习模型的可理解性取决于模型的简单性和模型表示与人类概念的接近程度。概念结构的标准理论起源于亚里士多德,其基础是定义和解释概念之间充分必要条件的存在。转换后的机器学习模型的可解释性有多种基于相似概念的替代学习方法[33,34]。在药物设计领域使用随机森林模型,我们展示了转换机器学习模型可以产生新科学知识的三种方式。首先,我们说明了如何使用转换机器学习模型来解释特定药物靶标H.sapiensDHFR的QSAR预测。表2列出了预测智人DHFR药物活性的10个最重要的特征(基线模型)。正如预期的那样,此列表中有其他DFHR目标的模型。然而,有趣的是,这些模型是细菌模型(干酪乳杆菌、大肠杆菌和鸟分枝杆菌)而不是哺乳动物模型。这三种细菌的DHFR模型有助于预测人类DHFR,其中L.casei的DHFR最像人类,而E.coli和M.Antibiotics的DHFR紧密结合,M.avium的DHFR是抵抗的。这些信息可能有助于设计人类DHFR抑制剂以更好地治疗癌症。表2中的其他特征提供了类似的见解。表2.预测人类DHFR活动的十大模型转换机器学习还可以通过聚类(无监督学习)提供科学见解。化学信息学的一个基本问题是估计化合物之间的相似性。标准方法基于化学结构的相似性来估计化合物之间的相似性,例如从分子指纹和Tanimoto(Jaccard)系数对图形相似性的距离估计。然而,在比较药物时,功能相似性而非结构相似性更受关注[15]。功能相似性可以使用QSAR模型中编码的实验积累信息来测量,并可用于预测针对目标的药物活性(图2A)。预测结果可用于计算药物与其药理特性之间的距离。图2B使用转换机器学习将美国食品和药物管理局(FDA)批准的药物聚类为三个聚类。尽管这些化合物的药理学关系很复杂,但所有这些药物都与血清素和多巴胺受体相互作用。可以使用转换机器学习来预测这种交互并将其用于聚类。根据聚类后化合物的相对位置可以预测不同化合物的药理特性。图2.(A)转换机器学习在聚类分析中的应用,通过表征药物分子对药物进行聚类。在这些表示中,每个元素都是药物对其目标之一(问题)的预测值。(B)根据化合物对QSAR目标的预测活性进行聚类。该图显示了FDA批准的化合物的聚类(颜色代表簇),以及三个密切相关的簇和一个放大的单个簇。(C)通过化学表征对药物靶标进行聚类。该图显示了FDA批准药物的蛋白质靶标的整体聚类(颜色代表聚类)和单个聚类的放大部分。我们对估计蛋白质目标相似性的生物信息学问题应用了类似的方法(图2C)。此任务的标准方法是使用序列比对来估计进化距离。然而,在大多数问题中,重要的不是进化距离,而是蛋白质活性位点的功能相似性。我们可以使用转换后的机器学习QSAR模型中积累的信息来估计功能相似性。我们描述了每个目标的药物活性预测,即FDA批准的化合物针对目标的活性预测。与化合物相似性预测一样,我们认为药物设计的聚类提供了比传统进化距离更多的洞察力,因为它基于目标对化合物的经验反应。由QSAR相似性预测模型识别的一组有趣的蛋白质(药物靶标)如图2C所示。尽管这组蛋白质没有任何明显的结构相似性,但这些(哺乳动物)蛋白质的功能显然与新陈代谢的控制有关。5.将转换机器学习与深度神经网络进行对比将转换机器学习与当前最重要的机器学习算法——深度神经网络(DNN)[35]进行比较是有益的。DNN的输入是典型的空间结构或时序结构,输入结构的先验知识编码在网络结构中。DNN的成功在于它能够利用多个神经网络层和大量数据来学习如何将较差的输入表示(例如图像像素值)映射到丰富且有效的潜在表示。这是通过使用可区分的学习模型和端到端学习来实现的。改善不良输入表示的能力使DNN能够在以前被证明不适合机器学习的领域取得成功:例如在围棋[36]等游戏中击败世界冠军,以及比人类专家更好地诊断皮肤癌[9]。DNN成功的一个重要教训是,利用机器学习可以增强机器学习的表示,而这正是转换机器学习所做的。DNN最适用于有大量数据可用于训练良好表示的问题,以及所使用的符号模型不需要适合人类认知的问题。大多数科学问题领域不符合这些标准。当标准的DNN算法需要处理多任务问题时,它们需要学习一个包含所有问题的单一大模型。与转换机器学习相比,DNN问题之间的关系和训练数据之间的关系都不是以转换特征的形式明确表示的。对于多任务问题,可迁移机器学习还具有支持增量机器学习的优势:如果添加了新数据或新任务,则无需重新学习任务模型。尽管转换ML会增加一些额外的计算成本,但与DNN学习相比,转换ML的额外成本较低。6.构建机器学习生态系统传统的机器学习方法是将每个学习任务视为一个单独的问题。随着多任务学习[10]、迁移学习[13]、终身学习[37]等的进步,这种观点开始发生变化。转变机器学习让我们对机器学习作为一个生态系统有了更广阔的视野。在这个生态系统中,学习任务、学习实例、机器学习方法、机器学习预测、元机器学习方法等都可以协同工作,以提高生态系统中所有任务的性能和可解释性。添加更多的训练数据不仅可以改进特定任务模型(使用特征选择、集成学习、叠加学习、转换机器学习、二阶转换机器学习等),还可以改进所有其他使用特定任务模型的模型模型(转换机器学习、二阶转换机器学习等)。同样,添加新任务可以扩展转换后的表示,通过转换ML、二阶转换ML等改进所有其他任务的模型。添加新的机器学习或元机器学习方法,所有任务模型都得到改进。在这样的机器学习生态系统中,预测性能将随着新知识的添加而逐渐提高[38]。预测也将更加可靠,因为来自许多不同来源的先验知识被用于所有预测任务[38]。在机器学习领域,人们对机器学习的自动化越来越感兴趣,并且有许多免费或商业系统可以自动化机器学习来解决新问题。例如,Auto-WEKA和Auto-sklearn[39]通过搜索可能的机器学习方法和超参数的空间来优化机器学习的预测性能。然而,目前还没有机器学习自动化系统能够发现有价值的新机器学习技巧,例如dropout、overlay等。尽管目前有越来越多的人工智能系统可以自动进行科学发现[40],但这些系统高度依赖机器学习,很少有工作将人工智能发现系统应用于机器学习。开发能够发现重要的新机器学习技巧的机器学习系统将改变机器学习和整个世界。7.数据集、代码和模型的开源为了实现可重复性,数千个数据集(QSAR、LINCS、Metallearning)、代码链接(TML、RF、XGB、SVM、k-NN、NN),约50,000包括所有决策树的随机森林模型可在开放科学平台(OSP)的知识共享许可数据库中找到:https://osf.io/vbn5u/。总共有大约100GB的压缩数据。很少有机器学习项目将如此多的可重现数据放到网上。为了最大化其附加值,我们遵循公开数字对象的FAIR原则(Findability、Accessibility、Interoperability和Reusability,即Discoverability、Accessibility、Interoperability和Reusability)[41]。翻译名词对照TL:迁移学习,迁移学习MTL:多任务学习,多任务学习RF:随机森林,随机森林XGB:梯度提升机,梯度增强机SVM:支持向量机,支持向量机KNN:k-nearestneighbors,k-nearestneighborNN:neuralnetwork,神经网络DNN:deepneuralnetwork,深度神经网络QSAR:Quantitativestructure-activityrelationship,quantitativestructure-activityrelationship