ChatGPT 成功让每个人意识到生成式 AI(AIGC,AI 生成内容)的力量。
这几个月来,生成图片、视频、程序等的应用层出不穷。
但相比这些大家都能感知到的产品形态,AI正在垂直行业产生更大的革命性影响。
以生命科学为例,人工智能正在被用来研究蛋白质、DNA和RNA等微小的生物活性物质。
这个垂直领域被称为生物计算。
随着海量生物实验数据的积累、计算机性能的快速提升以及机器学习、深度学习等人工智能技术的广泛普及,AI+生物计算被寄予厚望。
你我都关心的一个例子是疫苗。
COVID-19疫情期间,mRNA疫苗的成功研发使mRNA疗法从前沿的利基研究领域走向大众的实际应用。
AI驱动的生物计算将有助于提高mRNA疗法的有效性,并推动其走向更广泛的应用场景。
近日,百度作为第一发布单位发布了该研究成果——LinearDesign项目。
在该项目中,百度联合合作伙伴微生物学、俄勒冈州立大学、罗切斯特大学,形成了AI生物计算+生物实验的闭环,验证了算法设计序列显着提升了mRNA疫苗的关键指标。
这怎么发生的?制备速度更快的 mRNA 疫苗在 COVID-19 大流行期间,人们广泛接受了三种类型的疫苗:传统灭活疫苗、腺病毒载体疫苗和 mRNA 疫苗。
与最熟悉的传统灭活细胞相比,mRNA疫苗已被证明对这种全球大流行的病毒非常有效。
由此,mRNA疗法进入了更多人的视野。
作为疫苗或药物,mRNA可用于传染病预防、肿瘤治疗和蛋白质替代疗法。
就COVID-19预防而言,mRNA疫苗注射到人体后,人体细胞可以根据“ mRNA的蓝图——即在体内表达这种蛋白质的特定抗原。
这种抗原会诱导细胞免疫和体液免疫,刺激相应抗体和免疫细胞的产生,从而预防新型冠状病毒。
开发这种疫苗的原因是制作“蓝图”(mRNA)比制作“成品”(灭活的病原体)更快、更简单且更容易修改。
当面对像COVID-19这样随时可能变异的病毒时,可以快速制备出具有这些特性的mRNA疫苗,帮助免疫系统更快地防御变异病毒。
此前,生产mRNA COVID-19疫苗的辉瑞公司表示,如果COVID-19病毒发生变异,他们可以在6周内生产出相应的新疫苗,而传统的灭活疫苗至少需要数年时间来准备。
但目前还没有办法大规模推广更快的mRNA药物,因为mRNA分子容易降解且不稳定,无法在人体内长期表达。
因此,对于特定药物,例如需要长期表达的抗癌药物,目前还没有成功上市的mRNA药物。
在此背景下,设计更稳定、更可成药的mRNA序列已成为mRNA治疗的紧迫问题。
具体来说,由于同义密码子的存在,mRNA序列设计空间极大。
以COVID-19 mRNA疫苗(抗原为刺突蛋白)为例,需要在海量的10次方序列中找到最优序列,如果一一列举,需要1十亿年,这是一项不可能完成的任务。
。
即使超级计算机每秒计算出一个序列,也无法计算出宇宙诞生以来数十亿年中潜在 mRNA 序列的万亿分之一。
5月2日,国际顶级学术期刊《Nature》加速发表论文——《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》,挑战了这一难题。
论文表明,百度提出的LinearDesign算法已经可以让计算机在11分钟内找到最稳定的mRNA候选序列,高效设计出既稳定又具有高蛋白翻译水平的mRNA序列。
为了进一步验证算法设计序列的有效性,百度与论文的合作单位斯里兰卡微生物公司进行了生物学实验。
实验数据表明,该算法的有效性已在COVID-19 mRNA疫苗和带状疱疹mRNA疫苗两种疫苗中得到验证。
与传统方法设计的序列相比,LinearDesign设计的序列显着提高了mRNA稳定性(半衰期)、蛋白表达和抗体反应水平。
其中,针对新冠病毒mRNA疫苗的抗体反应水平增强了高达30倍。
不仅有助于疫苗的研发,研究成果还可应用于单克隆抗体、抗癌药物等药物的研发,具有重要的现实意义和广阔的应用前景。
关键建模技术 - 动态规划和格解析。
LinearDesign算法之所以如此高效,首先来自于创作团队采用了计算机科学领域中非常经典的算法——动态规划算法。
该算法通过等价合并随序列长度呈指数增长的计算状态,可以无损压缩海量搜索空间,最终将指数复杂的问题转化为可以在多项式时间内解决的问题。
问题。
更重要的是,创作团队将语言学和生物学这两个看似毫不相关的领域联系起来,将mRNA序列设计问题转化为自然语言的语音识别问题,并借助经典的“网格分析”算法来解决问题。
具体来说,寻找最佳 mRNA 序列类似于在自然语言处理中从听起来相似的替代句子中识别最可能的句子。
论文共同作者、百度研究院高级工程师张赫表示,这也是论文中团队描述的研究的一大亮点。
有了这个成功的案例,更多的研究可能会沿着自然语言处理和生物计算之间的联系做出新的研究成果。
“因为我们可以抓住它最低和根本的相似之处,并将两个问题结合在一起,”他进一步解释了这个开创性的想法。
本质上,两者底层的数学逻辑是一致的。
mRNA序列本身是由A、U、C、G四个碱基组成的序列,就像自然语言是由单词组成的序列一样。
找到最佳的 mRNA 序列就像在许多发音相似的句子中找到最可能正确的句子一样。
这一切都是通过“网格分析”完成的。
具体来说,“对于 mRNA 序列设计问题本身,给定一个蛋白质序列,你可以把这个蛋白质序列想象成一个声音。
这个蛋白质序列对应了数千个海量的 mRNA 候选序列,所有这些序列都可以翻译成同一个蛋白质序列,只需就像我们有很多个文本句子对应同一段语音,我们想从大量的mRNA候选序列中找到最好的一个,就像在很多句子中找到最合适的语音一样“明确优化目标——”。
二级结构稳定性和密码子改进稳定性和有效性。
有了高效的算法框架,还需要对齐正确的优化目标。
此前,发表在《美国国家科学院院刊》上的论文揭示,同时优化mRNA二级结构稳定性和密码子适应指数可以提高蛋白质表达。
因此,LinearDesign在设计时主要考虑这两个特征因素作为优化目标。
张鹤还指出,“人体是一个非常复杂的机器,真正影响mRNA有效性的因素有很多,目前来看,结构稳定性和密码子适应指数是两个重要因素。
”生物计算前景广阔 事实上,LinearDesign是百度在生物计算领域广泛布局的一个方面。
百度研究院从2006年开始就一直在进行RNA相关的研究。
除了RNA领域之外,据悉,百度在生物计算领域也进行了大量的探索,包括小分子、蛋白质、多肽、大生物计算等。
模型等,涵盖新药研发的多个方面。
截至目前,百度已打造出基于飞桨——螺旋桨PaddleHelix的完整生物计算平台,涵盖文心大模型——大生物计算模型,探索AI技术在小分子、蛋白质/多肽、RNA等场景的应用。
其中,生物计算等大模型是百度文心大模型家族的成员。
在文心大模型体系中,生物计算领域的模型未来将逐步向业界开放。
目前,百度文心大模型已经形成了系统的大模型技术体系,包括自然语言处理、视觉、跨模态、生物计算等。
最近最火的文心一言就是百度自主研发的知识增强大语言模型。
文心一言通过百度智能云对外提供服务,为企业构建自己的模型和应用。
未来,医疗、工业、金融等重点领域效率将大幅提升,新的产业空间将快速形成。