当前位置: 首页 > 科技赋能

商汤爵影智能汽车事业群总裁·王晓刚:通用人工智能下的智能汽车

时间:2024-05-19 16:15:33 科技赋能

“通用人工智能将为智能汽车打造一个‘智能飞轮’,在人、车、车型之间创造更有效的交互。

打通三者之间的互动闭环,让AI更准确地理解解人的需求,带来更好的驾驶体验。

”商汤科技联合创始人、首席科学家、爵影智能汽车事业群总裁王晓刚出席中国电动汽车百人会。

智能汽车论坛上说道。

上周,由中国电动汽车百强协会主办,清华大学、中国汽车工程学会、中国汽车工业协会、中国汽车技术研究中心、中国汽车工程协办的中国电动汽车百强论坛研究院在北京成功召开。

商汤科技、联合创始人、王晓刚、教授受邀出席大会并发表主题演讲,描绘了通用人工智能(AGI)赋能人类和机器智能的美好未来。

以下为王晓刚和教授演讲内容摘要。

通用人工智能引发新一轮范式创新。

新年伊始,ChatGPT和GPT-4掀起了通用人工智能的热潮,这是一场新的技术革命。

很荣幸能与大家共同探讨通用人工智能和多模态大模型给智能汽车带来的机遇和挑战。

今年以来,新型通用人工智能开始以更高效的方式解决大量开放任务。

它更接近人类智能,可以产生智能内容。

它还带来了一种新的研究范式——基于非常强大的多模态基础模型,它通过强化学习和人类反馈不断解锁模型的新能力。

那么,什么是通用人工智能?它与现有的人工智能系统有何不同?事实上,现有的人工智能系统也可以接收多模态数据,但输出任务都是提前定义的。

如果系统中添加新任务,则必须重新设计,并且必须收集大量样本。

在通用人工智能时代,人们可以通过输入提示词和多模态内容来生成多模态数据。

更重要的是,它可以生成自然语言的任务描述,并以非常灵活的方式响应大量的长尾问题和开放任务,甚至一些主观描述。

例如,在某些特定场景下进行检索任务时,现有的人工智能系统可能有几十个标签。

商汤做过实验,发现如果用自然语言描述的话,可能有一万多个单词。

用它们的组合来描述各种任务实际上是非常强大和灵活的。

例如,给定一张自动驾驶场景的图片,判断是否需要减速。

通过现有的AI系统,首先需要进行物体检测,然后在物体框内进行文字识别,最后做出决策。

整个流程的每个模块都是一个预先定义的任务。

在一般人工智能技术下,给定一个图像,人们只需要使用自然语言提出图像问题,例如“这个图标是什么意思?” “接下来应该做什么?”模型本身不会改变,输出端会通过自然语言的方式给出一系列逻辑推理,最终得出结论。

例如,它会告诉你“限速30公里”、“前方有学校区域”、“有孩子”、“你要小心驾驶”、“你需要将车速降低到30公里以下”公里”等操作。

可以看到,这些都是一些开放的新任务,能够给人工智能系统带来巨大的改变。

从“数据飞轮”到“智能飞轮” 通用人工智能还有一个非常强的点。

它可以生成内容,而且是智能内容。

在自动驾驶/智能汽车领域,有一种说法是“数据飞轮”,即模型可以支持终端,利用高质量的数据更新模型,进而提高数据的数量和质量从航站楼。

通用人工智能时代将产生人与模型可以交互的“智能飞轮”。

当人们将Align With Human Intention输入到模型中时,虽然模型很强大,但它并不知道人们需要什么样的能力。

然而,通过人类的反馈,它可以更好地了解解人需要它展现什么样的能力。

解锁更多技能,同时模型为人们输出智能内容,从而激发人们产生更多创造智慧,进而产生新的“智慧飞轮”。

值得一提的是,AGI对算力的需求非常大。

ChatGPT 有 1 亿个参数,需要~一张训练卡,一次训练的成本是几千万。

时至今日,其推理成本每天高达数百万。

2016年,商汤提前谋划,在上海临港设立人工智能计算中心(AIDC)。

作为SenseCore 商汤 AI大型设备的算力基础,AIDC基于27000个GPU的并行计算系统实现了5.0 exaFLOPS的算力输出,可支持多达20个千亿参数的超大型模型(千卡并行)同时训练。

自2001年以来,商汤开发了具有10亿参数的视觉模型,如今已拥有世界上最大的具有1亿参数的通用视觉模型。

在NLP领域,商汤目前拥有近亿参数的大型模型,并且具备训练一亿参数的大型多模态模型的能力。

因此,未来通用人工智能可以基于多模态基础模型进行视觉感知、语言理解、内容生成和推理决策。

通用人工智能赋能爵影驾、舱、云三位一体的产品体系。

商汤爵影是商汤的智能汽车业务板块。

坚持驾、舱、云的发展战略,希望通过驾舱一体化带来更多效益。

良好的驾驶体验。

商汤AI云可为自动驾驶提供数据闭环服务,让智能座舱成为第三生活空间。

同时,AI云也为通用人工智能赋能智能驾驶、智能座舱奠定了非常坚实的基础。

在自动驾驶领域,纯电动汽车是当前主流技术路线,未来可以向多模态、通用智能方向发展。

可以通过AIGC生成困难样本,并将多模态数据输入到模型中。

同时,大型多模态自动驾驶模型可以融合感知和决策。

在输出端,环境解码器可以重建3D环境,实现对环境的视觉理解;行为解码可以生成完整的路径规划;同时,动机解码器可以使用自然语言来描述推理过程,从而使自动驾驶系统变得可解释。

商汤基于大型多模态模型,可以实现数据的闭环感知和决策。

从前端自动采集高质量数据,到使用大型模型进行自动化数据标注和产品检测,模型迭代的效率可以提高数百倍,成本也可以降低。

在智能座舱领域,通用人工智能可以使基础模型具备空间环境理解、用户状态感知、多模态指令分析、多轮逻辑对话、内容生成等一系列能力,从而实现情感感知、智能助手、情感对话、创意内容生成、个性化交互等一系列功能,不断提升座舱的个性化体验。

同时,应用场景也可以从上车、驾驶、停车、下车扩展到娱乐、办公、购物、休息等。

事实上,智能汽车是通用人工智能实现的理想场景。

闭环,人类已经可以与机器一起驾驶。

未来,汽车和模型之间可以发生更有效的交互,从而完成人到车、到模型的交互闭环。

通用人工智能可以为人们提供更好的驾驶体验,释放无限的想象力。