日前,一位程序员的作品在推特上走红。我们都知道计算机程序是用代码编写的。最底层会有机器码和汇编语言,C、Python等高级语言更容易让人理解。事实上,大自然也有“DNA和RNA串”形式的源代码,其中包含构成生命元素的代码。在这篇文章中,作者BertHubert介绍了计算机与生物学之间有趣的联系。对于一般读者来说,这是一篇简单但科学的分析文章,从生物学的角度解释一些高度复杂的概念。阅读这篇博文后,你们中的一些人可能会受到启发进入遗传学和生物学的世界。言归正传,大众印象中的疫苗是手臂注射的液体,何必讨论它的源代码呢?这是个好问题。如果要回答的话,先从BioNTech/Pfizer公司的新冠疫苗“BNT162b2”的一小部分源代码说起,该疫苗又名Tozinameran,Comirnaty。BNT162b2mRNA的前500个字符。资料来源:世界卫生组织。BNT162bmRNA疫苗内部有这样一个数字代码,长度为4284个字符。在疫苗生产过程中,有人将这段代码上传到一台DNA打印机,打印机将磁盘上的字节变成了实际的DNA分子。BioXpTM3200DNA打印机该机器产生的DNA非常少,经过广泛的生物和化学处理后,最终在疫苗瓶中变成RNA。30微克剂量的疫苗实际上含有30微克RNA,此外还有将mRNA输送到人体细胞的脂质包装系统。RNA是DNA的易失性“工作记忆”版本。DNA就像是生物的闪存,非常耐用、冗余,而且非常可靠。但就像计算机无法直接从闪存驱动器中运行代码一样,在发生某些事情之前,代码会被复制到一个更快、更强大但更脆弱的系统中。计算中RAM的真实情况也适用于生物学中的RNA。很多东西是如此惊人的相似,RAM降解得很快,RNA也是“脆弱的花朵”,所以辉瑞/BioNTech的mRNA疫苗必须存放在最深的冰箱里。每个RNA字符重约0.5310^?21克,这意味着30微克疫苗剂量中有6个10^16字符,按字节计算大约为25PB,或2万亿个4284个字符的片段重复。疫苗中包含的实际信息量刚刚超过1KB,而新型冠状病毒(SARS-CoV-2)本身的重量约为7.5KB。基本背景DNA是一种数字代码,与使用0和1的计算机不同,生物学使用A、C、G和U/T(“核苷酸”、“核苷”或“碱基”)。A、C、G和U/T是分子,以链的形式存储在DNA或RNA中。在计算机中,8位就是一个字节,字节是计算机处理数据的最小存储单位。在自然界中,3个核苷酸被编码成一个密码子,这是遗传信息的基本内容,包含6位信息。疫苗旨在教会人体的免疫系统如何在不生病的情况下抵抗病原体。那么代码有什么作用呢?源码先来看一下世界卫生组织(WHO)公开的地图:先从“cap”说起。就像你不能在计算机文件中输入操作码并运行它一样,生物操作系统需要头文件、链接器、调用约定等。辉瑞疫苗的代码以以下两个核苷酸开头:GA等同于DOS和Windows可执行文件的MZ,或#!对于UNIX脚本。在生命系统和操作系统中,这两个字母都不会以任何方式执行,但它们必须存在,否则不会发生其他操作。mRNA帽具有许多功能,例如将代码标记为来自细胞核。并且在本文讨论的疫苗的上下文中,代码源自疫苗。cap使编码看起来合规,防止它们被破坏。GA核苷酸的化学成分与RNA的其余部分略有不同,其中GA具有某种带外信号。蛋白质的5′非翻译区(5′UTR)是生命存在的物质基础。当RNA转化为蛋白质时,称为“翻译”。RNA分子只能在一个方向上读取,读取从5'非翻译区开始,到3'非翻译区停止。5'非翻译区(5'UTR)是成熟mRNA在编码区(CDS)上游和5'帽下游未翻译成蛋白质的区域:GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC在这里,我们遇到了第一个惊喜。RNA中有四个主要碱基:A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)和U(尿嘧啶)。U在DNA中被称为“T”。但是Ψ来了。ψ是辉瑞疫苗非常聪明的地方。人体运行着强大的抗病毒系统。结果,细胞对外来RNA极为冷漠,并试图在它做任何事情之前将其摧毁。这就是疫苗的问题,它需要逃避人体的免疫系统。过去几年的实验发现,如果RNA中的U被稍微修饰过的分子取代,免疫系统就会对它失去兴趣。因此,辉瑞疫苗中的每个U都被Ψ(1-甲基-3'-假尿苷基)取代。巧妙之处在于,尽管Ψ安抚了人体的免疫系统,但它仍被细胞的相关部分接受为正常的U。计算机安全领域也有类似的事情。有时,消息的轻微损坏版本可能会欺骗防火墙和安全解决方案进行传播,同时它仍被后端服务器接受。很多人问,疫苗能否利用ψ技术打败人体免疫系统?答案是否定的。生命本身没有构建1-甲基-3'-假尿苷基核苷酸的机制。病毒就是靠这种生命机制进行自我复制,但这种机制并不存在。mRNA疫苗在人体中会迅速降解,因此不太可能复制Ψ校正的RNA。现在回到5'未翻译区域。这51个字母在做什么?就像自然界中的所有事物一样,很少有事物具有明确的功能。当细胞需要将RNA转化为蛋白质时,它会通过一种叫做核糖体的机器来完成。核糖体就像蛋白质的3D打印机,吸收RNA并抽出氨基酸,然后制造蛋白质。图片来源:维基百科用户@Bensaccount。正如你在动画中看到的那样,底部的黑色丝??带是RNA,丝带出现在绿色区域的部分是合成蛋白质,飞来飞去的是氨基酸和适合RNA的接头。这种核糖体需要物理定位在RNA链上才能发挥作用,一旦锚定,它就可以根据它摄取的其他RNA开始形成蛋白质。由此可以想象,它无法读取它首先着陆的部分。这只是UTR的功能之一:核糖体着陆区。UTR提供了“导入”的功能。除此之外,UTR还包含元数据:翻译发生在何时?发生了多少?对于疫苗,他们从α珠蛋白基因中提取了“直接”UTR。已知该基因会产生大量蛋白质。在过去的几年里,科学家们已经找到了进一步优化这个UTR的方法,而不是通常更好的alpha珠蛋白UTR。S糖蛋白信号肽如前所述,该疫苗的目标是使细胞产生大量的SARS-CoV-2刺突蛋白。到目前为止,我们在疫苗源代码中遇到的只是元数据和“调用约定”。现在进入实际病毒蛋白的领域。但是,我们还有一层元数据需要处理。一旦核糖体产生了蛋白质,蛋白质仍然需要去某个地方。这是在“S糖蛋白信号肽(扩展的指导肽序列)”中编码的。如何理解这种情况?在蛋白质的开头有一个地址标签,它被编码为蛋白质的一部分。在这种情况下,信号肽表明蛋白质应该通过“内质网”从细胞中分离出来。还有,“信号肽”不长,但是我们看代码的时候,病毒RNA和疫苗RNA是有区别的。具体如下代码所示,为了方便对比,使用正则RNAU替换修正后的ψ:33333333333333333Virus:AUGUUUGUUUUUCUUGUUUAUAUGCCACUAGUCUCUAGUCAGUGUGUUUVAccine:AUGUUCGUGUUCCUGGUGCUGCUGCCUCUGGUGUCCAGCCAGUGUGUU!!!!!!!!RNA并非偶然地列在3个字母的组中。我们知道3个RNA字母组成一个密码子,每个密码子编码一个特定的氨基酸。疫苗信号肽中所含的氨基酸与病毒本身所含的氨基酸完全相同。那么为什么RNA不同呢?由于有4个RNA字符,其中3个在密码子中,所以总共有4^3=64个不同的密码子。但是只有20种不同的氨基酸,因此需要多个密码子来编码相同的氨基酸。下图显示了RNA密码子和氨基酸之间的映射:RNA密码子。来源:维基百科如上表所列,疫苗修饰(UUU→UUC)都是同义词。疫苗RNA编码不同,但产生相同的氨基酸和蛋白质。如果我们仔细观察,我们可以看到大部分变化发生在密码子的第3个位置,用“3”标记。如果您检查通用密码子图,位置3与氨基酸生产无关。所以,变化是同义词。但是为什么会发生这些变化呢?仔细观察会发现,除了一个变化外,所有变化都会导致更多的C和G。那为什么要这样做呢?如上所述,我们的免疫系统对“外来”RNA(即来自细胞外的RNA代码)持悲观态度。为了逃避检测,RNA中的“U”已被Ψ取代。但事实证明,具有更多G和C的RNA也可以更有效地转化为蛋白质。这已经在疫苗RNA中通过将更多字符替换为Gs和Cs来实现。真正的刺突疫苗RNA接下来的3,777个字符经历了类似的“密码子优化”以添加更多的Cs和Gs。出于篇幅考虑,这里并未列出所有代码,但列出了非常具体的代码。这部分代码确实可以工作并帮助人们恢复正常生活:**LDKVEAEVQIDRLITGVirus:CUUGACAAAGuUGAGGCUGAAGUGCAAAUUGAUAGGUUGAUCACAGGCVaccine:CUGGACCCCUCCUGAGGCCGAGGUGCAGAUCGACAGACUGAUCACAGGCLDPPEAEVQIDRLITG!!!!!!!!!如上代码所示,我们可以看到同义词RNA的变化。例如,CUU在第一个密码子中变为CUG。这代表在疫苗中增加了另一个“G”,有助于增强蛋白质的产生。由于CUU和CUG都编码氨基酸“L”(亮氨酸),因此蛋白质没有变化。当我们比较疫苗中的整个刺突蛋白时,所有变化都是同义的,但以下两个例外。上面的第3和第4个密码子代表实际变化。K和V氨基酸都被“P”(脯氨酸)取代。对于“K”氨基酸,需要3个变化(“!!!”);对于“V”氨基酸,只需要2个变化(“!!”)。这表明这两个变化大大提高了疫苗效率。如果你观察一个真正的SARS-CoV-2颗粒,你会看到刺突蛋白簇,就像这个:SARS病毒颗粒。资料来源:维基百科SARS病毒颗粒这些尖刺被植入病毒颗粒(核衣壳蛋白)上。但问题是,我们的疫苗只会产生刺突,不会将它们植入任何病毒中。结果,未经修饰的单个刺突蛋白坍缩成不同的结构。如果作为疫苗给予,这确实会给我们的身体带来免疫力,但只是针对崩溃的刺突蛋白。真正的SARS-CoV-2有一个尖峰。在这种情况下,疫苗不会非常有效。那么该怎么办?2017年,有人描述了在正确位置放置双脯氨酸取代将使SARS-CoV-1和MERSS蛋白形成“预融合”结构,即使不是整个病毒的一部分。这是因为脯氨酸是一种非常坚韧的氨基酸。它就像一种夹板,将蛋白质稳定在我们需要呈现给免疫系统的状态。蛋白质的结尾,next如果我们浏览其余的源代码,我们会在刺突蛋白的结尾遇到一些小的修改:在蛋白质的末尾,我们发现了一个“终止”密码子,用小写字母“s”表示。这是一种礼貌的说法,蛋白质应该停在那里。原始病毒使用一个UAA终止密码子,而疫苗使用两个UGA终止密码子,也许是为了更好地衡量。像核糖体一样的3'非翻译区(3'UTR)需要在5'端输入一些内容,我们找到了'5UTR。在蛋白质的末端,我们发现了一个类似的结构,称为3'UTR。关于3'UTR的理论有很多,这里引用维基百科:“3'UTR在基因表达中起着关键作用,它影响mRNA的定位、稳定性、输出和翻译效率。UTRs已被了解,但相对神秘”我们所知道的是某些3'-UTR在促进蛋白质表达方面非常成功。根据WHO文件,辉瑞疫苗的3'-UTR“是从氨基末端增强子裂解(AES)mRNA和编码12S核糖体RNA的线粒体中提取的,以保证RNA的稳定性和总蛋白的高表达。“所有mRNA的AAAAAAAAAAAAAAAAAAAAAAAAA端都是聚腺苷酸化的。这是一种以“AAAAAAAAAAAAAAAAAAAA”结尾的奇特说法。mRNA可以重复使用多次,但当这种情况发生时,它也会在末端丢失一些A。一旦A被耗尽,mRNA不再有功能并被丢弃。通过这种方式,“poly-A”尾巴可防止其降解。研究发现了用于mRNA疫苗的末端A的最佳数量。公开文献中的数据表明,这个数字峰值在120左右。BNT162b2疫苗以:***********UAGCAAAAAAAAAAAAAAAAAAAAAAAAAAAAGCAUAUGACUAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA这是30个A,然后是10个核苷酸接头(GCAUAUGACU),然后又是70个A。总结我们现在知道确切的mRNA含量BNT162b2疫苗,大致理解了它们存在的原因。可以总结出以下几点:CAP确保RNA看起来像正常的mRNA;已知成功和优化的5'UTR;密码子优化的信号肽,这可以将刺突蛋白送到正确的位置(100%复制自原病毒);原始刺突的密码子优化版本,带有两个“脯氨酸”替换,以确保蛋白质以正确的形式出现;已知成功且优化的3'UTR;一条有点神秘的聚腺苷酸尾巴(Poly-ATail),里面有一个无法解释的连接器。最后,密码子优化将大量的Gs和Cs添加到mRNA中。同时,使用Ψ(1-methyl-3'-pseudo-uridyl)代替U有助于逃避自身免疫系统,因此mRNA会停留足够长的时间,因此我们实际上可以帮助训练免疫系统。
