当前位置: 首页 > 科技观察

新冠病毒会如何变异?机器学习给你答案

时间:2023-03-16 18:14:04 科技观察

本文转载自公众号《核心阅读》(ID:AI_Discovery)这对人类来说有点可怕,尤其是在新冠病毒肆虐全球的今天,它想对付什么样的蛾子?事实上,突变已经发生。我们先来看看从人类病毒进化而来的蝙蝠病毒的RNA核苷酸序列:AAAATCAAAGCTTGTGTTGAAGAAGTTACAACAACTCTGGAAGAAACTAAGTT和新型冠状病毒的RNA核苷酸序列:AAAATTAAGGCTTGCATTGATGAGGTTACCACAACACTGGAAGAAACTAAGTT显然,为了适应新宿主,新型冠状病毒原有的结构发生了变化.准确的说,原来的结构有20%发生了变异,但是大部分结构没有发生变化,所以病毒还没有发生变异。研究人员发现,新型冠状病毒通过反复变异来生存。在与新型冠状病毒的斗争中,我们不仅要知道如何消灭病毒,更要了解病毒是如何变异的,如何应对病毒变异。本文将尝试用K-Means和PCA来探索这一点。什么是基因组序列?如果您对RNA核苷酸序列有所了解,可以跳过这一部分。基因组测序,通常称为“解码”,是样本DNA分析中的重要步骤。通常,正常细胞有23对携带DNA结构的染色体。DNA是双螺旋结构,解旋后成梯形,构成梯形的碱基是成对的。DNA中有四种碱基:腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶。其中,腺嘌呤只与胸腺嘧啶配对,鸟嘌呤只与胞嘧啶配对。这四种碱基分别用A、T、G、C表示。这些碱基对可以排列和组合,以确定生物体蛋白质的特定结构,也就是从根本上决定病毒如何工作的DNA。通过使用特殊的仪器,如测序仪和一些特殊的标记方法,可以揭开特定DNA序列片段的神秘面纱。由此产生的信息可以进一步分析和比较,帮助研究人员识别遗传变化、疾病??和表型关联,并确定药物靶点。基因组序列,即A、T、G和C的长链,是有机体对其自然环境的具体表现。生物体的突变是通过改变DNA来实现的。研究基因组序列是分析病毒变异的有效途径。理解数据Kaggle上可以找到以下数据:每行数据代表一种蝙蝠病毒的变异。短短几周内,新冠病毒发生了262次变异,提高了存活率。一些重要数据:查询acc.ver表示原病毒的标识。Mismatches代表变异病毒和原始病毒之间不同项的数量。subjectacc.ver表示变异病毒的标识。%同一性表示原始病毒与变异病毒的相似程度。比对长度表示序列中相同或相似数的具体数目。位分数表示形状的接近程度,分数越高,形状的接近程度越高。下图显示了一些数据的每一列的统计情况(这个数据可以通过Python中的data.describe()很容易得到):通过观察%identity列中的数据,我们可以发现一个有趣的现象,最小比例为每个变化的正确值约为77.6%。对于这一系列数据来说,7%的标准差已经相当大了,这么大的标准差意味着变异范围扩大了。bitscore的值也说明标准差已经很大了,甚至比均值还大!相关热图是可视化数据的好方法。每个单元格表示各种特征之间的关联。许多数据彼此高度相关,因为大多数值的变化会相互影响。这里需要特别注意的是alignmentlength和bitscore的相关性很高。使用K-Means创建变异聚类K-Means是一种应用于机器学习的聚类算法,用于发现未来空间中的数据点聚类。K-Means的目标是发现变异簇,为研究和处理病毒的本质提供依据。但是,我们仍然需要选择簇数k。虽然这就像在2D中绘制点一样简单,但在更高的维度上是不可能的(如果我们想保留大部分信息)。使用肘部法选择k太主观且不准确,所以我们将使用轮廓法。Silhouette方法是k个聚类的得分,表示该聚类对数据的拟合程度。Python中的sklearn库使得使用K-Means和silouhette方法变得非常容易。似乎5个集群最适合数据。现在,我们可以确定聚类中心。这些是每个簇周围的点,代表(在本例中)5种主要突变类型的数值评估。注意:这些特征已经标准化,以将它们全部放在相同的尺度上。否则,列将无法比较。此热图中的每一列代表每个集群的一个属性。因为点被缩放了,所以实际的标注值在数量上是没有意义的。但是,可以比较每列中的缩放值。您可以直观地感受到每个突变簇的相对属性。如果科学家要开发疫苗,他们应该解决病毒的主要病毒群。下一步是使用PCA可视化集群。使用PCA可视化聚类PCA是一种降维方法,它在多维空间中选择正交向量来表示轴,从而保留大部分信息(方差)。使用流行的Python库sklearn,PCA可以用两行代码实现。首先,我们可以检查解释的方差比。这是保留在原始数据集中的统计数据的百分比。在这种情况下,解释方差比为0.9838548580740327,简直是天文数字!可以安全地假设我们从PCA获得的任何分析都对数据是真实的。每个新特征(主成分)都是其他几个列的线性组合。我们可以用热图可视化一列对于两个主要成分中的任何一个都很重要。重要的是要理解第一个组件中的高值意味着什么——在这种情况下,它的特点是比对长度更长,即更接近原始病毒,而组件2的主要特征是比对长度更短,距离更远与突变后的原始值相比,这也反映在比特分数的较大差异上。显然,病毒变异的主线有5条。我们可以从中得到很多信息。第一主成分左侧有四个病毒突变,右侧有一个。第一主成分的特点是对齐长度高。这意味着更高的第一主成分值对应更高的比对长度(更接近原始病毒)。因此,组件1的较低值与原始病毒具有较大的遗传差距。大多数病毒簇与原始病毒有很大不同。因此,试图研制疫苗的科学家应该意识到这种病毒会大规模变异。通过使用K-Means和PCA,我们能够识别2019-nCoV变体的五个主要集群,疫苗科学家可以使用从这些集群中心获得的每个集群的特征。通过PCA,我们可以二维地看到这些聚类中心,我们发现冠状病毒具有非常高的突变率。这可能就是新型冠状病毒如此致命的原因。