当前位置: 首页 > 科技观察

鹏城云脑支持的鹏城系列大模型基础研究

时间:2023-03-21 16:07:58 科技观察

各位专家、嘉宾大家好!今天主要讲鹏程大模型的赋能和自然语言处理。  鹏城实验室是国家部署的战略科技力量中的一支队伍,确保中国科学技术能够长期稳定地支撑整个国家的发展。它主要专注于宽带通信和新网络,包括高性能云计算服务。我今天说的基于升腾基础软硬件的工作是高性能云计算服务的一部分,而这个战略主要是通过鹏程云脑来实现的。  为什么要这样做?道理其实大家都很容易理解。现在有了人工智能,因为数据增长速度非常快,计算能力不能满足要求,应用非常迫切。我们如何度过所有这些事情?需要有一个非常强大的算力平台作为支撑,能够处理大规模的数据,能够有很好的算法,在这个算力平台上提供想要的解决方案,所以有这么大的设施是非常重要的.我们称这个设施为云脑。  在鹏城云脑II的建设过程中,我们真正实现了一个“深圳速度”的神话。为什么?了解我国科研体制的人都知道,如果要造一个大装置,或者说一个大机器,从开始到论证、立项、立项、科研、建设,这个周期可以是快则几年,慢则十年。而鹏程云脑二代从最初提交方案到完成整机,历时九个月,真正体现了“深圳速度”。项目建议书于去年(2020年)3月编制,YunbrainII机器于去年10月15日开工。可以看到左边的坑是机房没建之前采石场的坑。右图是机房建成后的样子。现在这台机器很忙。这台机器的利用率是99%,也就是基本没有闲着。我们排队等候是因为我们有太多的大模型需要在这台机器上训练。  这台机器号称E级AI算力,达到1000P。所谓E级就是10的18次方,也就是我们俗话说的百亿次。我们知道,1亿是10的8次方,10亿是10的16次方,在百亿次后加两个零。应该说在AI算力方面,是目前最强的。当然,可能还有其他地方的计算能力比这个规模略小。机器,现在大概有六七台,七八台,或者100P,300P的机器都用华为的系统造出来了,大约是这个机器算力的1/10或者1/3。转这个算力需要一点功夫,因为我们的机器是基于华为的Atlas900AI集群。一组Atlas900AI集群有128个计算节点,每个节点包含8颗升腾910处理器,我们将四组Atlas900AI集群连接在一起。整体是一个统一的界面,一个统一的形象,完全是一个网络,一个机器。为了做这台机器,我们搭建了一个非常快的网络,在四组集群上全切换。为了让它读取数据更快,我们在每台机器上都加强了存储,它内部的一些计算的底层软件也进行了优化,使得机器速度非常快。它有多快?基本上,这台机器现在拥有世界上最快的IO速度。它有多快?去年11月,这台机器上榜时,比排名第二的Intel的机器快了四倍。如果要做人工智能训练和大规模模型训练,IO的速度是决定性因素,因为大量的数据需要来回读取和吐出。如果IO速度不够,很多开销会被IO吃掉。本机对IO有特殊配置,对网络也有特殊配置,所以这个速度就是通信开销,整体占比比较低,所以在训练整个模型的时候会比较高效。高的。  本机器至少训练了两个千亿规模的大模型。日前,华为发布了盘古大模型。今天要给大家介绍的是鹏程大模型,它是自然语言处理预训练的两大模型之一。我们都知道GPT3基本上就是在做自然语言处理,是大家非常向往的模型。为了在微软环境下训练一个GPT3,微软花费了1200万美元训练了一个GPT3模型。现在我们已经完成了CloudBrainII机器的构建,我们已经训练了两个这样的模型。一是鹏城实验室和MindSpore团队的联合研究和培训。这个模型叫鹏程盘古,模型参数2000亿;另一个是华为云和鹏程实验室联合训练的大模型。这个模型叫做华为盘古,这个模型的参数是1100亿。这两个模型整个复杂度是1000亿个参数,是最大的专门针对中文的模型。  鹏城模式的另一个特点是它是开源的。我们内部人讨论过,你开源2000亿,没有我们的机器还是不行。如果你想运行它,你必须来找我们。在这台机器上运行。我们应该做什么来支持应用程序?我们将首先开发一个规模为数百亿的大型模型。如果需要的话,我们也可以开一个千亿规模的模型,只要你说清楚你要怎么用,在什么地方计算就可以了。所以原则上是支持开源的。  所以有了这个开源,你可以在自然语言处理方面做很多事情。如果你想做一个中文问答系统,也就是问答系统,如果你想做自然语言理解,如果你想做一些理解器,或者你想做机器翻译等等,这个系统可以做到这一切。这个模型可以用于云搜索、智能客服、一些医疗指南、互动教育、文献创作、摘要自动生成,甚至代码生成。现在我们有一个团队致力于知识产权交易的联邦推荐系统。在这个模型之前,我们用软件和许多专家的知识构建了一个系统。使用鹏城大模型后,该系统的性能提升了12.2%%,可见鹏城大模型带来的好处。而我们希望通过这种模式,突破“语言障碍”,支持“一带一路”国家战略。也就是说,我们很容易用这个模型做机器翻译、商业报关等文件交换。以前是讨论要不要用英文,用什么语言,现在可以一边用中文,一边用阿拉伯语,他们马上就通过这个东西互相翻译。现在你可以用手机登录,试试看模型是否运行良好,提出一些问题,看它是否能回答。  鹏程大模型是如何“炼”出来的?它有四个基本要素:  第一个要素是AI的计算能力,即鹏程云脑II;关键是要有高质量的中文语料库。我们有专门整理中文语料数据集的团队。他们把所有能拿到和买的数据都清洗干净,然后把数据很好的组织起来,发给机器。它可以被训练;那么一定有一个非常好的全自动并行算法,这个算法是升腾、MindSpore团队和鹏程实验室工程师无缝协作实现的;最后是通过“产学研”三方合作的新型研发合作机制,结合华为的产业优势、北京大学的学术优势、鹏城实验室的研究优势,形成优势互补和协同效应。  整个鹏城云脑可以作为一个核心节点,连接到国家算力基础设施。我们刚才讲了这么一台1000P的机器。现在全国各地都有很多基于升腾软硬件的100P或者300P的机器。这些机器可以连接在一起一起做。如果遇到大的或难的问题,可以在1000P的机器上跑。对于较小的机型或者一些私有化的应用,可以在100P或者300P的机器上运行。有了分工,人工智能就可以全国共享。