,不仅能提问、翻译、写文章,还能写代码、计算公式、画图标……OpenAI推出的GPT-32020年5月,因其神奇的多功能性而在AI领域大放异彩。GPT-3支持自然语言自动生成公式的输入。GPT-3是用英语语料预训练的,主要用于英语相关场景。不过,中国的产业界和学术界已经出现了期待中国版GPT-3的声音。“GPT-3与魔门问问的技术基础息息相关,虽然现阶段GPT模型还不完善,但它是我们可以看到通向更通用语言智能的重要路径之一。”从事中文语音交互的AI公司出门问问创始人兼CEO李志飞告诉品玩。走出去问问题一直对更通用的语言智能感兴趣。团队正在深入理解GPT-3相关论文,推进相关实验,努力提升训练效率。如何打造中国版GPT-3?那么,如果你想打造一个中国版的GPT-3,你应该怎么做呢?“与英文相比,中文版GPT-3的诞生会经历一个从零到一的过程,我们可以借鉴英文版GPT-3技术迭代的相关经验。”李知非对品晚说道。GPT-3的技术迭代是一个不断增加训练数据量和模型参数规模的过程。从本质上讲,GPT-3是一个大规模的预训练NLP(自然语言处理)模型。大规模预训练是指使用大量未标记的语料进行无监督学习,得到一组模型参数,然后使用少量标记的语料进行微调,最后应用到具体的下游NLP任务中。该模型产生了很多成功的NLP模型,例如谷歌在2018年推出的Bert,但其通用性仍然不足。直到GPT-3的推出,这类预训练模型的通用性又上了一个新台阶。从第一代GPT到GPT-3,其模型层面一直是基于Transformer(一种领先的语义特征提取方法)进行预训练。没有变化,但训练数据量和模型大小增加了十倍和千倍。.2018年6月发布的第一代GPT只有5GB的预训练数据。GPT-2增长到40GB,GPT-3跃升到45TB(相当于45,000GB)。在模型规模上,从第一代GPT的1.17亿个参数,呈指数级增长到1750亿个。随着数据量和模型规模的增加,GPT逐渐放弃了用少量标注语料进行微调的步骤。完全是根据预训练得到的参数来做下游任务,精度还是有一定保证的。GPT需要的算力越来越夸张。第一代GPT可以在8个GPU上训练一个月,而GPT-2需要在256个GoogleCloudTPUv3上训练(每小时256美元),训练时间未知。对于GPT-3,训练模型的估计成本超过460万美元。相应地,参与GPT论文的作者数量从第一代的4位增加到第三代的31位。而且,31位作者分工明确,有的负责训练模型,有的负责收集和过滤数据,有的负责实现特定的自然语言任务,有的负责开发更快的GPU核心。GPT-3论文共有31位作者,借鉴了GPT-3的迭代经验。李志飞认为,开展中国GPT-3模型训练较为合理的路径是:“从中小型模型入手,进行研究和实验,取得一定成果后,再扩展到大型模型进行验证”至于人力配置,他表示,GPT是一个非常综合的大型系统项目,涉及学术、工程、业务团队之间的大规模协作。一般需要组建一个几十人的团队,包括科学家、工程师、项目经理等角色。虽然英文版GPT-3技术迭代的相关经验可以借鉴,但在打造中文版GPT-3的过程中,需要解决很多独特的问题,比如中文训练数据、算力等。“一方面,我们需要投入更多的时间和精力来获取优质多样的训练文本。”李志飞说,“另一方面,计算效率的问题也是当前大规模深度学习模型训练面临的共同挑战。”从整体规模、数据质量和多样性来看,目前网上可获得的高质量中文数据要少于英文数据,这可能会影响中文模型的训练效果。但是,从现有的研究和分析结果来看,数据并不总是越多越好。“我们可以通过结合数据优化和数据生成来提高训练语料的有效性。最初,具体的训练语料主要包括百科问答、新闻信息、博客电子书数据等一般爬取数据。经过数据处理后其规模大约500GB。”李知非说道。GPT-3模型参数达到1750亿,背后的训练资源开销非常大。据估计,训练一个模型的费用超过460万美元。但随着国内外各项研究的推进,预训练模型的训练效率会不断提高。“我们可以借鉴其他预训练语言模型的优化经验,在训练语料、网络结构、模型压缩等方面多做一些工作,预计模型的单次训练成本会降低一个数量级。”李知非说道。看起来构建中文GPT-3的工作量很大,但是这项工作的回报也是非常可观的。李志飞告诉品玩,GPT-3的通用能力可以看成是下一代搜索引擎和AI助手,所以这项技术本身的商业应用场景可以非常广阔。其次,构建GPT模型的过程会涉及超算中心和AI算法平台的建设。这些算力和算法平台可以为企业、科研机构、政府提供底层服务,通过开放平台赋能产业,如智能车载、智慧城市、科技金融等领域。此外,虽然GPT本质上是一种语言的时序模型,但语言以外的其他时序问题,如经济、股票、交通等行为预测,也有可能成为潜在的应用场景。GPT-4会如何发展?尽管GPT-3目前的表现令人震惊,但它仍然存在很多问题。例如,它并不真正理解文本的意思,而只是对单词进行排列和组合。此外,研究人员并不完全了解它是如何工作的。李志飞预测,下一版本的GPT-4将在模型规模、小样本学习、多模态、学习反馈机制、与任务执行的融合等方面有所改进。毫无疑问,GPT-4模型会更加暴力。李志飞表示:“下一代GPT模型必然会在数据量、模型参数、计算能力等方面有很大的提升。另外,下一代GPT模型可能不会局限于英文,将能够处理更多的跨语言任务。”目前的GPT-3模型也严重依赖于小样本学习机制。虽然GPT-3不需要fine-tuning,但是在完成特定的NLP任务时,还是会把少量与任务相关的实例交给模型。在零样本和单样本任务上,GPT-3的退化更为明显。其实后面两个任务是比较常遇到的问题。“下一代GPT模型需要加强理论泛化能力,才能更好地处理零样本和单样本任务。”李知非说道。下一代GPT模型很可能是多模态模型。OpenAI认为,纯文本的自回归预训练模型已经达到了目前的规模,正在接近极限。它需要向多模态模型方向发展,结合文本、语音和图像内容进行学习。李志飞认为,多模态模型一方面可以引入比语言更多的维度信息,另一方面可以促进模型学习完成更通用的表示,从而增强模型的泛化能力。另一个重要的演变是学习反馈机制的引入。目前GPT模型只能在完全无监督的情况下读取海量互联网文本数据进行学习,但人类的学习过程是与物理世界相互作用的。只有这样才能建立起更多关于物理世界的“常识”,比如眼镜应该放在桌子的上面,而不是下面。如果我们想要达到更一般的状态,除了多模态之外,我们还必须在学习过程中引入来自物理世界的反馈机制。“当然,这种反馈也是通过数据来实现的,而不是让GPT真正像人类一样去探索物理世界。”李志飞说,“另外,考虑到GPT实现完全无监督学习的初衷,这种反馈更多是隐式和延迟的,而不是显式和及时的。为了做到这一点,强化学习(reinforcement学习)需要介绍。”李志飞还认为,GPT-4可能会引入任务执行能力,目前的GPT主要是一个预测生成引擎,而不是一个任务执行器。比如你对GPT说,“帮我订一张从北京出发的经济舱机票明天下午3:00左右到上海。”目前GPT可能理解这句话的意思,但是还不能自动调用订票网站的API(应用程序接口)来执行任务。没有这个能力执行,GPT的通用性有限,因为每个任务都需要额外的代码来执行理解的任务。因此,GPT必须学习如何直接执行任务。总的来说,李志飞非常看好GPT未来的发展:“很多内容未来互联网上的知识或知识将由类似GPT的模型生成或处理。所以从某种程度上来说,GPT的发展代表了语言主权的演进,它将有成为生态系统的潜力。”
