当前位置: 首页 > 科技赋能

原来已经有人用ChatGPT来训练自动驾驶了

时间:2024-05-19 16:08:41 科技赋能

去年年底,ChatGPT诞生了。

真实自然的人机对话,以及堪比专家的答案,还有严肃的废话,让其迅速走红,风靡全球。

与之前的换脸、捏脸、诗画生成等AIGC应用很火但很快就淡出不同,ChatGPT不仅保持了热度,而且还有全线爆发的趋势。

如今,谷歌和百度的人工智能聊天机器人已经在路上。

比尔盖茨对此给予了高度评价:ChatGPT与PC和互联网的诞生一样重要。

为什么?首先,确实需要人机对话。

人工智能技术鼻祖图灵设计的“图灵测试”,就是试图通过人机对话来测试人工智能是否欺骗了人类。

能够从人机的问题中得到准确的答案,比搜索引擎给出一堆推荐的网页和答案更周到。

要知道,懒惰是人类进步的动力。

其次,ChatGPT确实很强大。

ChatGPT不仅可以像人类一样聊天,还可以生成各种新闻、电子邮件、论文,甚至可以进行计算和代码。

这就像小朋友抓到了“哆啦A梦”一样——一切都有答案。

除了看热闹之外,我们还可以问一点:ChatGPT 为什么这么好? ChatGPT:我手里拿着一个大模型,我也能“打败”人类。

我们先看一个“我不想让你这么想,我想让我妻子这么想”的例子。

过去,当人类与ChatGPT交谈时,他们可以说“我妻子这样说”或“我妻子说……这没有错”,但稍稍坚持后它就会屈服并修改其答案。

但经过大量训练后,ChatGPT 开始变得非常艰难。

不管你是否和妻子搬出去,都会坚持事实。

2等于4,无论你是不是“hep控”,它都不会妥协。

原来,ChatGPT 是经过重建的,并接受了关于真实性和数学能力的特殊训练。

换句话说,ChatGPT可以被人类带来偏见,也可以被人类加强和纠正。

所以为什么?我们先来回答一下ChatGPT到底是什么?它是基于千亿大语料参数组成的GPT3.0架构训练的自然语言处理聊天工具。

ChatGPT的算法采用Transformer神经网络架构,对时间序列数据具有良好的处理能力。

用通俗的英语来说,它可以很好地处理上下文的语法关系。

Transformer 是一个简单的编解码器,可以几乎无限地堆叠以形成大规模的预训练语言模型。

基于Transformer模型的GPT架构可以很好地完成多种语言处理任务,例如填空、造句、分词、翻译等,随着数据集和模型参数的大规模增长,已经到了GPT3.0的规模,GPT已经展现出了非常强大的文本生成能力。

自然而然,问答对话模式就应运而生了。

但GPT3.5还不是ChatGPT。

ChatGPT还需要使用监督学习和强化学习来实现。

具体来说,ChatGPT 采用了一种名为“人类反馈强化学习(RLHF)”的训练方法,可以在训练过程中根据人类反馈来确保将无用、扭曲或有偏见的信息输出降至最低。

简单来说,GPT只能保证问题得到解答,但不能保证答案一定正确。

然而ChatGPT不仅要保证有对话,还要保证对话是正确的。

就像孩子一样,他们必须通过成人一遍又一遍地纠正发音、语法和用词的训练,学会真正有效的对话。

ChatGPT 是利用人类反馈进行强化学习的产物。

由于 ChatGPT 非常易于使用。

我们不妨问它一个问题:ChatGPT可以用于自动驾驶技术训练吗?答案是:是的。

郝默顾伟豪:郝默将ChatGPT引入自动驾驶,采取了这三个步骤。

我猜ChatGPT还没有触及这个问题,因为缺乏ChatGPT和自动驾驶相关的内容。

不过,如果ChatGPT最近在中国互联网上收录了相关报道,那么就知道中国一家人工智能科技公司已经开始思考这个问题了。

今年1月BiMo智行举办的AI DAY上,BiMo CEO顾伟豪非常郑重地提到了ChatGPT,并直言BiMo已经开始研究ChatGPT背后的技术。

顾伟豪表示:“实现从 GPT3 到 Chat GPT 的跨越,最重要的是 ChatGPT 模型采用了‘利用人类反馈的强化学习 RLHF’训练方法,更好地利用了人类知识,让模型能够判断其” 那么这对自动驾驶有什么启示呢?ChatGPT的技术思路与自动驾驶认知决策的思路不谋而合。

海默认知驾驶决策算法的演进分为三个阶段:第一阶段是引入个体场景的端到端模仿学习,直接贴合人类驾驶行为。

第二阶段是利用大模型引入海量的人类正常驾驶数据,通过Prompt实现可控、可解释的认知决策。

第三阶段引入真实接管数据,尝试“人类反馈强化学习(RLHF)”。

一般来说,人类驾驶员的每一次接管都是人类对自动驾驶策略的反馈(Human Feedback);这个接管数据可以简单地用作负样本,它是修正后的自动驾驶决策的记录。

它也可以作为积极的例子来学习,以改善认知决策。

为此,郝默构建了<老策略、接管策略、人工标签策略>的两两排序模型。

基于该模型,海默构建了自动驾驶决策奖励模型,以在各种情况下做出最优决策。

这个模型被称为人类驾驶自我监督认知的大模型。

简单来说,为了让自动驾驶系统学习到经验丰富的驾驶员的优秀驾驶方法,海默的大认知模型必须学会从人类反馈中进行选择和区分,并稳定输出最优解。

这样,海谋在掉头、环岛等公认的困难场景下,通过率提升了30%以上。

当然,如果ChatGPT继续搜索学习就会知道,在1月初的HAOMO AI DAY上,郝墨不仅发布了这个自动驾驶监管的大模型,还一口气发布了另外四个大模型。

这五个大模型可以帮助飞墨实现车侧感知架构的跨代升级,即将过去分散的多个下游任务整合起来,形成更加端到端的架构,包括交通灯、本地路网、预测等任务,实现跨代升级。

总体来说,人工智能技术是很多老产业的改造者,也是新产业的助推器。

正如当年互联网高喊“所有行业将被互联网重塑”一样,今天所有行业都将被“AI+”重塑。

事实上,人工智能的这场革命并非不可避免。

这取决于天才算法结构的出现。

这取决于海量数据和计算能力的成本降低和容易获得。

它还依赖于人工智能技术从业者。

勇敢的尝试。

ChatGPT的出现如此,自动驾驶的落地也是如此。