打造中国版ChatGPT，国内有哪些学术力量可以抢滩？

时间：2023-03-19 10:13:21 科技观察

OpenAI现在已经成为全球人工智能领域的目标。在谷歌推出“巴德”之后，中国科技圈也开始沸腾了。原本吃苦头的自然语言处理研究团队，如今成了大家的香饽饽。一场资本和人才的争夺战已经打响。“打造中国版ChatGPT”在王慧文的英雄帖中流传开来，成为中国AI从业者的共同目标。然而，无论这几天关于ChatGPT的讨论有多火热，我们都不得不面对一个残酷的现实：在OpenAI的追逐中，最终能登上光明顶峰的团队并不多。一方面成本高，“炼”大模型的资金只是创建ChatGPT的入场券；另一方面，能够训练大模型的人才有限。大模型是OpenAI的ChatGPT的技术基石，找到合适的人也很关键。大型模型必然是产学研合作的方向。ChatGPT参赛者要想获胜，不仅要有顶尖的科学家，还要有对政治和商业环境的了解，以及经验丰富的运营团队。他们还必须在资本市场上具有号召力，愿意加入Allin的明星创业者。本文旨在从学术研究的角度，盘点国内主要潜力力量在这一波ChatGPT竞争中的位置。1大学实力：清华一骑绝尘在所有大学中，清华大学名列前茅。清华大学是我国自然语言处理（NLP）领域重要的学术研究中心。其NLP研究历史悠久，研究团队庞大。知名学者有唐杰、孙茂松、刘志远、黄敏烈等，近年在大型语言模型领域工作。非常突出。而且，在各大厂的大模领军人物中，也不乏清华子弟，比如京东集团副总裁何晓东、华为云人工智能领域首席科学家田七等。梳理一下，清华系赶超这波ChatGPT的主要潜在力量有3个：一是以李娟子及其弟子唐杰为首的知识工程实验室（KEG）；另一个是自然语言处理与社会人文计算实验室（THUNLP），学术带头人是孙茂松，团队主力刘志远是其弟子；三是交互式人工智能研究组（CoAI），由朱晓燕和他的学生黄敏烈共同领导。清华大学唐杰在上一次提炼大模型的热潮中，清华大学计算机系教授唐杰是最杰出的学术代表之一。2020年聚集北京高校，主导致远研究院“启蒙”1.0和2.0模型的研发。同时，唐杰也是一位非常注重产学研结合和大模型生态建设的学者。2019年，依托明星产品AMnier和知识工程实验室的技术成果，唐杰和李娟子牵头成立了智浦AI。目前的公司团队包括唐杰的多名学生，他们是参与“启蒙”2.0的主力军。唐杰是数据挖掘方向出身，而李娟子是知识图谱方向的知名学者，决定了智扑AI的大规模模型的特征是“数据+知识”。去年，智浦AI发布了双语千亿大模型GLM-130B，该模型开源，可供研究机构或个人免费下载使用。GLM-130B采用了KEGLabs于2021年提出的GLM模型架构，在多项任务上优于OpenAI的GPT-3模型。通过模型量化技术，唐杰团队还提高了模型的易用性，降低了计算成本。GLM-130B可用于在A100或V100服务器上进行推理。此外，唐杰的团队还与多家大公司建立了交流和联系，支持企业开发大机型，比如阿里的M6。唐杰的学生杨志林是NLP创业公司CircularIntelligence的联合创始人，也参与了华为“盘古”大模型的研发。据内部人士透露，智浦AI目前正在研究ChatGPT产品，将在近两个月推出。清华大学孙茂松、刘志远从NLP的学科方向来看，孙茂松、刘志远的团队是清华系最“有根有底”的。清华大学自然语言处理与社会人文计算实验室（THUNLP）是国内开展NLP研究最早、最具影响力的科研单位。实验室成立于20世纪70年代后期，由中国NLP的先驱黄常宁领导。ACLFellow孙茂松是他的学生，刘志远是孙茂松的学生。孙茂松（左）、刘志远（右）THUNLP在NLP领域积累了深厚的经验。2015年，发布了基于大量人类创作诗歌训练的中文诗歌生成系统“九歌”，受到学术界和产业界的广泛关注。大语言模型方面，孙茂松、刘志远团队沿用2018年的预训练范式，于2019年初发布了ERNIE语言模型（同时与百度版ERNIE同名），随后开发了CPM模型。“文苑”的前身。孙茂松、刘志远和他们的研究生在NLP和大模型领域孵化了多家公司。包括涂存超于2017年创立的PowerLawIntelligence，专注于NLP在法律领域的应用；2022年由齐凡超创立的神研科技，致力于以自主研发的中文大模型打造工业级中文信息处理引擎。此外，曾国阳去年创立了免笔智能，专注于大模型的加速和应用落地。公司团队是“启蒙·文苑”的骨干成员。他们与THUNLP、致远研究院语言大模型技术创新中心共同发起了OpenBMB开源社区，并推出了CPM-Live百亿中文大模型直播训练项目，以及大模型全流程加速工具。在ChatGPT的这一波浪潮中，THUNLP的优势在于拥有众多NLP学术成果，有大模型开发经验。挑战在于工程和商业化。作为聊天机器人，ChatGPT由对话系统技术支持。在这个方向上，清华大学交互式人工智能（CoAI）课题组的研究非常突出。CoAI由朱晓燕和她的学生黄敏烈领导。黄敏烈是对话式人工智能领域的专家。他是《现代自然语言生成》一书的作者。此前他还参与了致远“启蒙”车型的研发。黄敏烈黄敏烈也是下一个领域创业的清华学者中的一员。2021年创立“领信智能”，基于大模型和对话系统的研究基础，黄敏烈选择了心理咨询聊天机器人赛道。2022年，他的团队推出了一款名为“AI乌托邦”的互动机器人，用户可以自定义AI角色，与机器人进行深度对话。作为国内为数不多的能够训练大模型的团队之一，黄敏烈在近日完成Pre-A轮融资后表示，相比ChatGPT，他们希望将“灵信智能”定位为“中国人物AI”——文本生成的基础，为用户提供情感陪伴。据了解，其团队在心理健康领域积累了大量优质训练数据，模型参数超过30亿。2大厂商均属国内互联网大厂之列，规模化模式领先第一梯队的有百度、阿里、京东、华为。此外，这波宣布进入ChatGPT研发的互联网公司还包括腾讯、字节跳动、快手、360、科大讯飞、网易等，都在军备竞赛般的ChatGPT研发中，大公司的出钞能力无疑具有绝对优势。有业内人士评价，目前，包括360在内的一些大厂在ChatGPT-like技术的各项指标上只能达到略强于GPT-2的水平。与现在的ChatGPT相比，还是落后了一代。大语言模型属于赤手空拳（如快手、科大讯飞、网易等），因此ChatGPT-likebeta版本上线时间和实际效果存在较大不确定性。百度文心大模型在自然语言处理领域，百度在各大公司中技术积累的历史最悠久。百度文心大模型的研发由CTO王海峰牵头。在“文心易言”项目中，王海峰也是总指挥，核心成员吴天（百度集团副总裁，飞桨平台研发领军人物）和吴华（百度技术委员会主席、百度翻译技术团队创始人）一）。王海峰百度是国内最早深耕预训练模型研发的团队之一。2019年，发布中文效果超越BERT的ERNIE1.0和2.0模型；2021年7月发布的ERNIE3.0在SuperGLUE上超越了GPT-3；同年发布的“鹏城-百度·文心”（ERNIE3.0Titan）是首个千亿级大规模知识增强模型。“知识增强”是文心系列走的技术路线，即引入语言知识和世界知识等，从大规模知识图谱和海量数据中学习，提高大型模型的学习效率和可解释性。2021年，百度还将推出一款名为PLATO的对话机器人。该模型基于大型模型PLATO-XL进行对话生成，具有数百亿参数。百度的优势在于丰富的搜索语料数据、多年在AI研究中对用户数据的深耕，以及百度飞桨深度学习平台和自研芯片的加持。经过微软和谷歌的激战，百度是中国最早宣布开发类ChatGPT产品（“文心易言”）计划的团队之一。业内人士表示，其产品形态可能是独立入口，也可能效仿微软Bing，对接百度搜索入口。阿里同义大模型阿里巴巴达摩院2021年进入大模型，参与研发致远研究院“无道文会”大模型，后推出纯文本预训练语言模型PLUG（270亿）parameters），完全参照GPT-3的架构，集成了语言理解和生成能力，水平接近GPT-3。原达摩院智能计算实验室成员杨红霞（已于去年离职）与清华唐杰团队共同开发的M6多模态大模型系列，参数也从百亿级增加到十级万亿。在现任达摩院副院长周景仁的带领下，达摩院于去年9月推出了目前阿里大模式的成果之巅峰，即“同益”大模式。周景仁的“同义”模型首次统一了模态、结构和任务，其背后的技术支撑是统一学习范式OFA。去年，为推动中国大模型的开源生态建设，达摩院还推出了AI模型开源社区“模型范围”（ModelScope），在业界引起了极大反响。日前，达摩院已确认正在开发基于“通易”模型的阿里版ChatGPT。除了文本生成，它还有绘图功能。据了解，其ChatGPT类产品将与钉钉深度融合。京东延禧大模型京东在2020年开始研究AI文字生成，以支持京东商城产品页面描述的生成。据透露，京东商城页面20%的商品介绍是由AI团队利用NLP技术生成的。期间由于NLP技术整体低迷，研发受阻，但随后京东重新重视，推出了延禧大模型。2018年离开微软加入京东的何晓东，现任京东集团副总裁、京东人工智能研究院执行院长、京东大模型研究团队负责人。何晓东2021年与原京东AI负责人周博文（2021年11月离职）带领团队在京东燕西片平台开发领域模型K-PLUG。该模型与京东电商场景紧密结合，借鉴电商领域特定知识，自动生成产品文案。京东目前还没有千亿参数的大模型，而K-PLUG只有10亿参数，但这次京东云烟西平台也宣布入驻，将推出ChatGPT产品“ChatJD”，强调其“工业版”颜色。华为的盘古大模型华为的计算资源为大模型的研究提供了天然优势。华为在2020年开始布局大机型，带头人是田奇（IEEEFellow，国际欧亚科学院院士）。田七于2020年3月加入华为云，担任华为云人工智能领域首席科学家。同年夏天GPT-3出来后，他立即组建团队，开始了盘古模型的研发。因此，华为成为2020年首批参与大模型竞赛的大厂之一。基于升腾AI，联合鹏城实验室、圈路智能，华为于2021年4月发布了“盘古”系列大模型，包括中文语言、视觉、多模态、科学计算四大模型。盘古NLP大模型是业界首个千亿级的中文生成理解大模型。预训练阶段学习了40TB的中文文本数据，包括细分行业的小样本数据。在模型结构上，盘古采用了Encode和Decode的架构，保证了其在生成和理解上的性能。华为有千亿模型的研发经验，也有强大的计算资源，但这次却闹得非常小，目前还没有明确是否会开发类似ChatGPT的产品。3学术创业学校ChatGPT带来的AI商业化浪潮具有极高的技术壁垒，同时也给了科学家们巨大的创业机会。比如兰州科技创始人周明，IDEA研究院首席科学家张家兴，兰振中、西湖新晨，联源科技创始人周博文等，都是学术创业派的代表。对他们来说，要想在未来的ChatGPT商战中取胜，还需要加强自身的工程和市场运营能力。就像张家兴和蓝振中，他们已经在为自己的研发团队物色CEO了。此外，我们还可以观察到两种进入模式：一种是基于强大的技术能力，弥补商业化的短板；另一种是末端商业化经验丰富的老板吸引技术人才组建Team。最终哪种模式会更成功，我们拭目以待。兰州科技的周明在上一轮大模型堆栈参数的火热中。周明独辟蹊径，为自己的创业公司兰州科技选择了轻量化大型车型路线。2021年6月，周明成立兰州科技，次年7月，其团队发布了10亿参数的“孟子”模型，效果堪比千亿大模型。这是周明在学术界和工业界双开花的结果。周明周明是自然语言处理领域最具影响力的华人科学家之一。毕业于哈尔滨工业大学，获博士学位。1991年，百度CTO王海峰同学，哈尔滨工业大学教授，NLP大师李生的徒弟。博士期间，周明开发了中国第一个汉英翻译系统。毕业后，周明先是进入清华大学任教，1999年被微软亚洲研究院（MSRA）创始院长李开复挖走，2001年起担任NLP组组长，后成为升任微软亚洲研究院副院长。在MSRA期间，周明在NLP技术的产业化方面取得了很多成果。参与并主导ACL峰会论文100余篇。相关技术也已经应用于Windows、Office、Azure、微软小冰等世界级产品。2020年，周明立志以全新的方式寻求学术界与产业界的合作，于是他结束了在微软21年的职业生涯，加入了李开复创立的创新工场人工智能工程研究院，担任首席科学家，开始了孵化出一个创业团队，最终成立了兰州科技。据官方消息，兰州科技将依托其大语言模型类ChatGPT底层技术，与拥有海量数据的中文在线合作打造国产ChatGPT。周明团队是继续走轻量级模型路线，还是转向千亿级以上的大型模型作为技术支撑，目前还不得而知。联源科技周博文2022年，周博文重返学术界，加入清华大学，担任电子工程系终身教授、清华大学慧眼讲座教授、电子系协同交互智能研究中心主任。同时，周博文还是一个创业新人。2021年底，辞去京东高级副总裁一职，离职创办链元科技。周博文周博文是中国科学技术大学大三班的毕业生。他正在攻读博士学位。在科罗拉多大学博尔德分校。毕业后加入IBM，历任IBM研究院人工智能基金会（AIFoundations）院长、IBM沃森集团首席科学家、IBM杰出工程师。2017年，周博文加入京东，担任京东集团副总裁，负责京东人工智能研究。NLP、多模态、人机对话等都是周博文深耕多年的领域。他提出的self-attentionfusionmulti-head机制的自然语言表示机制后来成为Transformer架构的核心思想之一。他还在AIGC领域提出了两种自然语言生成模型架构和算法。In2020,hewaselectedIEEEFellow.在周博文看来，ChatGPT的核心进步在于人类协作和交互学习的提升，而不是模型的放大。而且ChatGPT未来必将向多模态演进，这也是他领导的协同交互智能研究中心的重点研究方向。在联源科技，周博文也实现了一些AIGC的应用，比如利用生成式人工智能加速以消费者和市场为中心的实时创新，提高sku创新的成功率。IDEA研究院张家兴粤港澳大湾区，除了鹏程实验室和腾讯，还有一个大模范玩家，就是IDEA研究院（全称“粤港澳大湾区数字经济研究院”）研究院”，由沉向阳等知名AI科学家于2020年创立。IDEA研究院大模型负责人是张家兴，也是从MSRA走出来的AI科学家。张家兴张佳兴2006年毕业于北京大学电子系，获博士学位）。毕业后先在百度呆了一段时间，后加入微软的Bing搜索团队，与周景仁共事。之后在MSRA，张家兴从事系统研究，2012年开始转向深度学习。2014年，张家兴加入阿里iDST（达摩院前身）团队，一年后到蚂蚁金服领导NLP技术团队将对话机器人应用于金融场景。2020年，张家兴应数字科学CEO吴海生的邀请，加入360数学系担任首席科学家，仅仅一年半就离职了。在MSRA周立东院长的推荐下，张家兴加入IDEA研究院担任首席科学家，负责认知计算与自然语言研究中心。张家兴的队伍在这波AIGC中一直处于领先地位。他领导开发了“封神榜”开源模型系列，并于去年在国内推出了第一个中文版的稳定扩散模型“太乙”。ChatGPT问世后，张家兴在去年底迅速将团队的大型模型开发转移到了ChatGPT的对话任务路线上。据他介绍，他的团队开发的ChatGPT-like模型与ChatGPT具有相同的效果，而且只有50亿个参数。文本生成速度也非常快。目前正在内测中，将于近期公测。虽然目前50亿参数模型运行良好，但张家兴计划开发一款千亿模型支持的类ChatGPT产品，并推动其商业化。这就是为什么他最近准备筹集资金并寻找首席执行官的原因。西湖新辰蓝振中也在为团队物色CEO，同时也是西湖新辰蓝振中的创始人。蓝振中去年在众多国产AI绘画产品中脱颖而出的《偷梦者》（现已更名为《寻梦日记》）就是出自蓝振中团队。兰振中毕业于中山大学，本科学历，博士。在卡内基梅隆大学。期间学习计算机视觉，后来到谷歌工作后转向自然语言处理。依托谷歌的TPU资源，他开发了著名的轻量级大型模型“ALBERT”。2020年6月，蓝振中回国加入西湖大学，创办深度学习实验室，开始语言与视觉结合的多模态研究。依托西湖大学的科研资源和此前加入的致远“清源汇”，兰振中开启了产学研模式，创立了西湖新晨。在2019年8月的稳定扩散浪潮中，首款国画产品《偷梦者》上线。在ChatGPT问世不久，西湖新臣就推出了类似的文字生成产品“新臣聊”。不同的是它可以上网，而且是多模态交互，不仅可以生成文字，还可以输出图片。和很多创业的学者一样，蓝振中也深切感受到，团队需要一位有管理经验和强大资源整合能力的CEO来打造中国版的OpenAI。敬请期待AI科技评论明天推送：《蓝振忠也发「英雄帖」，中国版 ChatGPT 明星公司寻找 CEO》

上一篇：现代企业架构师的五个特征

下一篇：常用内网渗透工具使用总结

打造中国版ChatGPT，国内有哪些学术力量可以抢滩？相关文章