当前位置: 首页 > 科技观察

用Transformer定义所有ML模型,特斯拉AI总监Karpathy发推感叹AI融合趋势

时间:2023-03-18 15:35:15 科技观察

使用Transformer定义所有ML模型,特斯拉AI总监Karpathy发推文感叹AI融合Consolidation的趋势??表示惊叹。他说,“10年前,视觉、语音、自然语言、强化学习等都是完全分开的,甚至没有跨领域的论文。方法也完全不同,通常不是基于机器学习。”从2010年开始,视觉、语言、自然语言、强化学习等领域的壁垒逐渐被打破,开始转向同一个技术方向,即机器学习,尤其是神经网络。他们使用的网络架构五花八门,但至少论文开始读起来比较相似,基本上都是用大数据集和网络优化。随着AI技术的发展,这两年不同领域的模型架构似乎都变得雷同了。很多研究者开始关注Transformer架构,在此基础上进行细微的改动进行研究。比如诞生于2018年的GPT,拥有1.17亿个参数;GPT-2,2019年15亿个参数;GPT-3,到2020年将扩展到1750亿个参数。基于PyTorch,Karpathy编写了一个只有大约300行代码的小型GPT训练库,并将其命名为minGPT。这个minGPT可以进行加法运算和字符级的语言建模,精度还不错。核心minGPT库由两个文件组成:mingpt/model.py和mingpt/trainer.py。前者包含实际的Transformer模型定义,大约200行代码,后者是与GPT无关的PyTorch样板,可用于训练模型。部分代码截图。197行完整代码:https://github.com/karpathy/minGPT/blob/master/mingpt/model.py结合模型架构,我们现在可以输入词序列,图像补丁序列,语音序列,Reinforcement学习序列(状态、动作、奖励)。我们可以在条件设置中加入任意的token,这种模式是一个极其简单灵活的建模框架。即使在视觉等领域内,过去在分类、分割、检测和生成任务方面也存在一些差异。然而,所有这些也都被翻译成相同的框架,例如补丁的检测序列和边界框的输出序列。现在,区分特征主要包括以下几个方面:1)数据2)将自问题映射到向量序列和从向量序列映射自问题的输入/输出规范3)结构化稀疏模式的位置编码器和注意掩码类型具体问题因此,从技术上讲,AI领域的各个方面,包括前景、论文、人才和想法,突然变得极其相关。每个人基本上都在使用相同的模型,大多数改进和想法都可以在所有AI领域快速“复制粘贴”。正如许多其他人注意到和指出的那样,新皮质在其所有输入模式中也具有高度统一的架构。也许大自然偶然发现了一个非常相似的强大架构,并以相似的方式复制了它,只改变了一些细节。这种架构融合将使我们能够专注于硬件、软件和基础设施建设,进一步加速人工智能领域的进步。“无论如何,这是一个激动人心的时刻。”网友们也对AndrejKarpathy所描述的AI融合趋势发表了自己的看法。推特用户@NeuralNetNail表示,“这是一个很有价值的见解。融合将加快AI领域的创新步伐,在边缘使用AI的尖端产品将变得更加可行。我认为变异就是质量世界最大的敌人。”网友@sisilmehta也认为,“ML基础设施迎来了激动人心的时刻。随着模型架构的融合,建模框架和基础设施也将融合。我当然希望PyTorchLightning也能做到这一点。”网友@MarcosPereira说,“一方面,到处都在使用变压器,我们遇到了障碍,需要创新;另一方面,到处都在使用变压器,所以跟上。”原文来自推特@AndrejKarpathy:https://twitter.com/karpathy/status/1468370605229547522基于Python,使用NVIDIATAOToolkit和Deepstream快速搭建车辆信息识别系统NVIDIATAOToolkit是一个AI工具包,提供AI/DL框架的现成接口,无需编码即可更快地构建模型。DeepStream是一个用于构建人工智能应用程序的流媒体分析工具包。它以流数据为输入,利用人工智能和计算机视觉来理解环境,将像素转化为数据。DeepStreamSDK可用于构建智慧城市交通和行人理解、医院健康安全监控、零售业自助检测分析、制造工厂零部件缺陷检测等视觉应用解决方案