当前位置: 首页 > 科技观察

打造中国版ChatGPT,国内有哪些学术力量可以抢滩?

时间:2023-03-19 10:13:21 科技观察

OpenAI现在已经成为全球人工智能领域的目标。在谷歌推出“巴德”之后,中国科技圈也开始沸腾了。原本吃苦头的自然语言处理研究团队,如今成了大家的香饽饽。一场资本和人才的争夺战已经打响。“打造中国版ChatGPT”在王慧文的英雄帖中流传开来,成为中国AI从业者的共同目标。然而,无论这几天关于ChatGPT的讨论有多火热,我们都不得不面对一个残酷的现实:在OpenAI的追逐中,最终能登上光明顶峰的团队并不多。一方面成本高,“炼”大模型的资金只是创建ChatGPT的入场券;另一方面,能够训练大模型的人才有限。大模型是OpenAI的ChatGPT的技术基石,找到合适的人也很关键。大型模型必然是产学研合作的方向。ChatGPT参赛者要想获胜,不仅要有顶尖的科学家,还要有对政治和商业环境的了解,以及经验丰富的运营团队。他们还必须在资本市场上具有号召力,愿意加入Allin的明星创业者。本文旨在从学术研究的角度,盘点国内主要潜力力量在这一波ChatGPT竞争中的位置。1大学实力:清华一骑绝尘在所有大学中,清华大学名列前茅。清华大学是我国自然语言处理(NLP)领域重要的学术研究中心。其NLP研究历史悠久,研究团队庞大。知名学者有唐杰、孙茂松、刘志远、黄敏烈等,近年在大型语言模型领域工作。非常突出。而且,在各大厂的大模领军人物中,也不乏清华子弟,比如京东集团副总裁何晓东、华为云人工智能领域首席科学家田七等。梳理一下,清华系赶超这波ChatGPT的主要潜在力量有3个:一是以李娟子及其弟子唐杰为首的知识工程实验室(KEG);另一个是自然语言处理与社会人文计算实验室(THUNLP),学术带头人是孙茂松,团队主力刘志远是其弟子;三是交互式人工智能研究组(CoAI),由朱晓燕和他的学生黄敏烈共同领导。清华大学唐杰在上一次提炼大模型的热潮中,清华大学计算机系教授唐杰是最杰出的学术代表之一。2020年聚集北京高校,主导致远研究院“启蒙”1.0和2.0模型的研发。同时,唐杰也是一位非常注重产学研结合和大模型生态建设的学者。2019年,依托明星产品AMnier和知识工程实验室的技术成果,唐杰和李娟子牵头成立了智浦AI。目前的公司团队包括唐杰的多名学生,他们是参与“启蒙”2.0的主力军。唐杰是数据挖掘方向出身,而李娟子是知识图谱方向的知名学者,决定了智扑AI的大规模模型的特征是“数据+知识”。去年,智浦AI发布了双语千亿大模型GLM-130B,该模型开源,可供研究机构或个人免费下载使用。GLM-130B采用了KEGLabs于2021年提出的GLM模型架构,在多项任务上优于OpenAI的GPT-3模型。通过模型量化技术,唐杰团队还提高了模型的易用性,降低了计算成本。GLM-130B可用于在A100或V100服务器上进行推理。此外,唐杰的团队还与多家大公司建立了交流和联系,支持企业开发大机型,比如阿里的M6。唐杰的学生杨志林是NLP创业公司CircularIntelligence的联合创始人,也参与了华为“盘古”大模型的研发。据内部人士透露,智浦AI目前正在研究ChatGPT产品,将在近两个月推出。清华大学孙茂松、刘志远从NLP的学科方向来看,孙茂松、刘志远的团队是清华系最“有根有底”的。清华大学自然语言处理与社会人文计算实验室(THUNLP)是国内开展NLP研究最早、最具影响力的科研单位。实验室成立于20世纪70年代后期,由中国NLP的先驱黄常宁领导。ACLFellow孙茂松是他的学生,刘志远是孙茂松的学生。孙茂松(左)、刘志远(右)THUNLP在NLP领域积累了深厚的经验。2015年,发布了基于大量人类创作诗歌训练的中文诗歌生成系统“九歌”,受到学术界和产业界的广泛关注。大语言模型方面,孙茂松、刘志远团队沿用2018年的预训练范式,于2019年初发布了ERNIE语言模型(同时与百度版ERNIE同名),随后开发了CPM模型。“文苑”的前身。孙茂松、刘志远和他们的研究生在NLP和大模型领域孵化了多家公司。包括涂存超于2017年创立的PowerLawIntelligence,专注于NLP在法律领域的应用;2022年由齐凡超创立的神研科技,致力于以自主研发的中文大模型打造工业级中文信息处理引擎。此外,曾国阳去年创立了免笔智能,专注于大模型的加速和应用落地。公司团队是“启蒙·文苑”的骨干成员。他们与THUNLP、致远研究院语言大模型技术创新中心共同发起了OpenBMB开源社区,并推出了CPM-Live百亿中文大模型直播训练项目,以及大模型全流程加速工具。在ChatGPT的这一波浪潮中,THUNLP的优势在于拥有众多NLP学术成果,有大模型开发经验。挑战在于工程和商业化。作为聊天机器人,ChatGPT由对话系统技术支持。在这个方向上,清华大学交互式人工智能(CoAI)课题组的研究非常突出。CoAI由朱晓燕和她的学生黄敏烈领导。黄敏烈是对话式人工智能领域的专家。他是《现代自然语言生成》一书的作者。此前他还参与了致远“启蒙”车型的研发。黄敏烈黄敏烈也是下一个领域创业的清华学者中的一员。2021年创立“领信智能”,基于大模型和对话系统的研究基础,黄敏烈选择了心理咨询聊天机器人赛道。2022年,他的团队推出了一款名为“AI乌托邦”的互动机器人,用户可以自定义AI角色,与机器人进行深度对话。作为国内为数不多的能够训练大模型的团队之一,黄敏烈在近日完成Pre-A轮融资后表示,相比ChatGPT,他们希望将“灵信智能”定位为“中国人物AI”——文本生成的基础,为用户提供情感陪伴。据了解,其团队在心理健康领域积累了大量优质训练数据,模型参数超过30亿。2大厂商均属国内互联网大厂之列,规模化模式领先第一梯队的有百度、阿里、京东、华为。此外,这波宣布进入ChatGPT研发的互联网公司还包括腾讯、字节跳动、快手、360、科大讯飞、网易等,都在军备竞赛般的ChatGPT研发中,大公司的出钞能力无疑具有绝对优势。有业内人士评价,目前,包括360在内的一些大厂在ChatGPT-like技术的各项指标上只能达到略强于GPT-2的水平。与现在的ChatGPT相比,还是落后了一代。大语言模型属于赤手空拳(如快手、科大讯飞、网易等),因此ChatGPT-likebeta版本上线时间和实际效果存在较大不确定性。百度文心大模型在自然语言处理领域,百度在各大公司中技术积累的历史最悠久。百度文心大模型的研发由CTO王海峰牵头。在“文心易言”项目中,王海峰也是总指挥,核心成员吴天(百度集团副总裁,飞桨平台研发领军人物)和吴华(百度技术委员会主席、百度翻译技术团队创始人)一)。王海峰百度是国内最早深耕预训练模型研发的团队之一。2019年,发布中文效果超越BERT的ERNIE1.0和2.0模型;2021年7月发布的ERNIE3.0在SuperGLUE上超越了GPT-3;同年发布的“鹏城-百度·文心”(ERNIE3.0Titan)是首个千亿级大规模知识增强模型。“知识增强”是文心系列走的技术路线,即引入语言知识和世界知识等,从大规模知识图谱和海量数据中学习,提高大型模型的学习效率和可解释性。2021年,百度还将推出一款名为PLATO的对话机器人。该模型基于大型模型PLATO-XL进行对话生成,具有数百亿参数。百度的优势在于丰富的搜索语料数据、多年在AI研究中对用户数据的深耕,以及百度飞桨深度学习平台和自研芯片的加持。经过微软和谷歌的激战,百度是中国最早宣布开发类ChatGPT产品(“文心易言”)计划的团队之一。业内人士表示,其产品形态可能是独立入口,也可能效仿微软Bing,对接百度搜索入口。阿里同义大模型阿里巴巴达摩院2021年进入大模型,参与研发致远研究院“无道文会”大模型,后推出纯文本预训练语言模型PLUG(270亿)parameters),完全参照GPT-3的架构,集成了语言理解和生成能力,水平接近GPT-3。原达摩院智能计算实验室成员杨红霞(已于去年离职)与清华唐杰团队共同开发的M6多模态大模型系列,参数也从百亿级增加到十级万亿。在现任达摩院副院长周景仁的带领下,达摩院于去年9月推出了目前阿里大模式的成果之巅峰,即“同益”大模式。周景仁的“同义”模型首次统一了模态、结构和任务,其背后的技术支撑是统一学习范式OFA。去年,为推动中国大模型的开源生态建设,达摩院还推出了AI模型开源社区“模型范围”(ModelScope),在业界引起了极大反响。日前,达摩院已确认正在开发基于“通易”模型的阿里版ChatGPT。除了文本生成,它还有绘图功能。据了解,其ChatGPT类产品将与钉钉深度融合。京东延禧大模型京东在2020年开始研究AI文字生成,以支持京东商城产品页面描述的生成。据透露,京东商城页面20%的商品介绍是由AI团队利用NLP技术生成的。期间由于NLP技术整体低迷,研发受阻,但随后京东重新重视,推出了延禧大模型。2018年离开微软加入京东的何晓东,现任京东集团副总裁、京东人工智能研究院执行院长、京东大模型研究团队负责人。何晓东2021年与原京东AI负责人周博文(2021年11月离职)带领团队在京东燕西片平台开发领域模型K-PLUG。该模型与京东电商场景紧密结合,借鉴电商领域特定知识,自动生成产品文案。京东目前还没有千亿参数的大模型,而K-PLUG只有10亿参数,但这次京东云烟西平台也宣布入驻,将推出ChatGPT产品“ChatJD”,强调其“工业版”颜色。华为的盘古大模型华为的计算资源为大模型的研究提供了天然优势。华为在2020年开始布局大机型,带头人是田奇(IEEEFellow,国际欧亚科学院院士)。田七于2020年3月加入华为云,担任华为云人工智能领域首席科学家。同年夏天GPT-3出来后,他立即组建团队,开始了盘古模型的研发。因此,华为成为2020年首批参与大模型竞赛的大厂之一。基于升腾AI,联合鹏城实验室、圈路智能,华为于2021年4月发布了“盘古”系列大模型,包括中文语言、视觉、多模态、科学计算四大模型。盘古NLP大模型是业界首个千亿级的中文生成理解大模型。预训练阶段学习了40TB的中文文本数据,包括细分行业的小样本数据。在模型结构上,盘古采用了Encode和Decode的架构,保证了其在生成和理解上的性能。华为有千亿模型的研发经验,也有强大的计算资源,但这次却闹得非常小,目前还没有明确是否会开发类似ChatGPT的产品。3学术创业学校ChatGPT带来的AI商业化浪潮具有极高的技术壁垒,同时也给了科学家们巨大的创业机会。比如兰州科技创始人周明,IDEA研究院首席科学家张家兴,兰振中、西湖新晨,联源科技创始人周博文等,都是学术创业派的代表。对他们来说,要想在未来的ChatGPT商战中取胜,还需要加强自身的工程和市场运营能力。就像张家兴和蓝振中,他们已经在为自己的研发团队物色CEO了。此外,我们还可以观察到两种进入模式:一种是基于强大的技术能力,弥补商业化的短板;另一种是末端商业化经验丰富的老板吸引技术人才组建Team。最终哪种模式会更成功,我们拭目以待。兰州科技的周明在上一轮大模型堆栈参数的火热中。周明独辟蹊径,为自己的创业公司兰州科技选择了轻量化大型车型路线。2021年6月,周明成立兰州科技,次年7月,其团队发布了10亿参数的“孟子”模型,效果堪比千亿大模型。这是周明在学术界和工业界双开花的结果。周明周明是自然语言处理领域最具影响力的华人科学家之一。毕业于哈尔滨工业大学,获博士学位。1991年,百度CTO王海峰同学,哈尔滨工业大学教授,NLP大师李生的徒弟。博士期间,周明开发了中国第一个汉英翻译系统。毕业后,周明先是进入清华大学任教,1999年被微软亚洲研究院(MSRA)创始院长李开复挖走,2001年起担任NLP组组长,后成为升任微软亚洲研究院副院长。在MSRA期间,周明在NLP技术的产业化方面取得了很多成果。参与并主导ACL峰会论文100余篇。相关技术也已经应用于Windows、Office、Azure、微软小冰等世界级产品。2020年,周明立志以全新的方式寻求学术界与产业界的合作,于是他结束了在微软21年的职业生涯,加入了李开复创立的创新工场人工智能工程研究院,担任首席科学家,开始了孵化出一个创业团队,最终成立了兰州科技。据官方消息,兰州科技将依托其大语言模型类ChatGPT底层技术,与拥有海量数据的中文在线合作打造国产ChatGPT。周明团队是继续走轻量级模型路线,还是转向千亿级以上的大型模型作为技术支撑,目前还不得而知。联源科技周博文2022年,周博文重返学术界,加入清华大学,担任电子工程系终身教授、清华大学慧眼讲座教授、电子系协同交互智能研究中心主任。同时,周博文还是一个创业新人。2021年底,辞去京东高级副总裁一职,离职创办链元科技。周博文周博文是中国科学技术大学大三班的毕业生。他正在攻读博士学位。在科罗拉多大学博尔德分校。毕业后加入IBM,历任IBM研究院人工智能基金会(AIFoundations)院长、IBM沃森集团首席科学家、IBM杰出工程师。2017年,周博文加入京东,担任京东集团副总裁,负责京东人工智能研究。NLP、多模态、人机对话等都是周博文深耕多年的领域。他提出的self-attentionfusionmulti-head机制的自然语言表示机制后来成为Transformer架构的核心思想之一。他还在AIGC领域提出了两种自然语言生成模型架构和算法。In2020,hewaselectedIEEEFellow.在周博文看来,ChatGPT的核心进步在于人类协作和交互学习的提升,而不是模型的放大。而且ChatGPT未来必将向多模态演进,这也是他领导的协同交互智能研究中心的重点研究方向。在联源科技,周博文也实现了一些AIGC的应用,比如利用生成式人工智能加速以消费者和市场为中心的实时创新,提高sku创新的成功率。IDEA研究院张家兴粤港澳大湾区,除了鹏程实验室和腾讯,还有一个大模范玩家,就是IDEA研究院(全称“粤港澳大湾区数字经济研究院”)研究院”,由沉向阳等知名AI科学家于2020年创立。IDEA研究院大模型负责人是张家兴,也是从MSRA走出来的AI科学家。张家兴张佳兴2006年毕业于北京大学电子系,获博士学位)。毕业后先在百度呆了一段时间,后加入微软的Bing搜索团队,与周景仁共事。之后在MSRA,张家兴从事系统研究,2012年开始转向深度学习。2014年,张家兴加入阿里iDST(达摩院前身)团队,一年后到蚂蚁金服领导NLP技术团队将对话机器人应用于金融场景。2020年,张家兴应数字科学CEO吴海生的邀请,加入360数学系担任首席科学家,仅仅一年半就离职了。在MSRA周立东院长的推荐下,张家兴加入IDEA研究院担任首席科学家,负责认知计算与自然语言研究中心。张家兴的队伍在这波AIGC中一直处于领先地位。他领导开发了“封神榜”开源模型系列,并于去年在国内推出了第一个中文版的稳定扩散模型“太乙”。ChatGPT问世后,张家兴在去年底迅速将团队的大型模型开发转移到了ChatGPT的对话任务路线上。据他介绍,他的团队开发的ChatGPT-like模型与ChatGPT具有相同的效果,而且只有50亿个参数。文本生成速度也非常快。目前正在内测中,将于近期公测。虽然目前50亿参数模型运行良好,但张家兴计划开发一款千亿模型支持的类ChatGPT产品,并推动其商业化。这就是为什么他最近准备筹集资金并寻找首席执行官的原因。西湖新辰蓝振中也在为团队物色CEO,同时也是西湖新辰蓝振中的创始人。蓝振中去年在众多国产AI绘画产品中脱颖而出的《偷梦者》(现已更名为《寻梦日记》)就是出自蓝振中团队。兰振中毕业于中山大学,本科学历,博士。在卡内基梅隆大学。期间学习计算机视觉,后来到谷歌工作后转向自然语言处理。依托谷歌的TPU资源,他开发了著名的轻量级大型模型“ALBERT”。2020年6月,蓝振中回国加入西湖大学,创办深度学习实验室,开始语言与视觉结合的多模态研究。依托西湖大学的科研资源和此前加入的致远“清源汇”,兰振中开启了产学研模式,创立了西湖新晨。在2019年8月的稳定扩散浪潮中,首款国画产品《偷梦者》上线。在ChatGPT问世不久,西湖新臣就推出了类似的文字生成产品“新臣聊”。不同的是它可以上网,而且是多模态交互,不仅可以生成文字,还可以输出图片。和很多创业的学者一样,蓝振中也深切感受到,团队需要一位有管理经验和强大资源整合能力的CEO来打造中国版的OpenAI。敬请期待AI科技评论明天推送:《蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO》