“上到大厅,下到厨房”。这种对理想型贤妻的赞美,很可能会在未来对谷歌的机器人说。你见过能用大语言模型自学的机器人吗?做不到?可以学!现在不行不要紧,过段时间就好了。比起波士顿动力酷炫无比的“铁面金刚”,上刀山下火海,如履平地般翻山越岭,这次谷歌的“学习机器人”更像是你身边贴心的小助手。我说你做是机器人执行指令的一般套路。谷歌这次的新研究让机器人不仅能听从指令,还能自己做。这是谷歌首次将语言大模型与机器人相结合,教机器人做与人类相同的事情。论文地址:https://arxiv.org/pdf/2204.01691.pdf谷歌论文的标题是:“DoasIcan,notasIsay”。大概意思是:“你已经是一个成熟的机器人了,我做的你可以做,你不会的可以学,你不会的可以练!”谷歌将这个机器人命名为PaLM-SayCan。在《华盛顿邮报》的报道中,记者看到研究人员让机器人使用塑料玩具原料制作汉堡包。似乎这个机械臂知道在放肉之后、放生菜之前加一些番茄酱,但厨师目前认为“加番茄酱”就是把整瓶番茄酱都放在汉堡里。虽然这个机器人厨师还不合格,但谷歌认为,在大型语言模型的训练下,它学会做汉堡只是时间问题。机器人还能认出七喜罐头和可口可乐罐头,打开抽屉,找到一袋薯片。借助PaLM的抽象能力,它甚至可以将黄色、绿色和蓝色的碗分别比作沙漠、丛林和海洋。与之前的机器人不同,过去有做汉堡、炒面、披萨的机器人,但它们实际完成的是一个单一动作的明确指令组合,比如“右臂向左移动三格”和“翻面”等等。现在谷歌的目标是让机器人能够理解和执行诸如“过来给我做个汉堡包”、“我饿了,去给我买面包”、“出去和我一起打球”等指令。就像和某人说话一样。例如,当一位谷歌人工智能研究人员对PaLM-SayCan机器人说:“我的饮料洒了,你能帮忙吗?”它在谷歌办公楼的厨房里用轮子滑行,利用数码相机的视觉在柜台上发现一块海绵,用电动臂抓住它并把它带回来。“这是一个根本不同的模型,”谷歌的布赖恩·伊希特(BrianIchter)说。他是最近发表的一篇描述此类机器人新进展的论文的作者之一。如今,机器人并不是稀有商品。数以百万计的机器人在世界各地的工厂中工作,但它们遵循特定的指令,通常只专注于一两个任务。建造一个可以完成一系列任务并边走边学的机器人要复杂得多。多年来,大大小小的科技公司都在努力打造这款“万能机器人”。近年来大火的语言模型让谷歌找到了开发“通用机器人”的灵感。大型语言模型使用Internet上的大量文本来训练AI软件猜测特定问题或评论之后可能出现的响应类型。从BERT到GPT-3,再到后来的MT-NLP,随着参数数量的突飞猛进,这些模型已经变得非常擅长预测正确的响应,以至于与模型的交互常常感觉就像是在与知识渊博的人对话存在。.这么多知识,光跟别人聊聊岂不是太可惜了?如果你能说话,你就可以工作。从聊天机器人到助手机器人,谷歌的研究思路可以说是“成功”。这款PaLM-SayCan有何优点?这一次,谷歌AI与谷歌母公司Alphabet的登月计划X团队推出的EverydayRobot项目合作,想出了一个办法。即通过预训练从大型语言模型(LLM)中提取知识,让机器人按照高级文本指令完成物理任务。EverydayRobot项目已经进行多年,许多与GoogleAI合作的团队成员在2015年或2016年加入了Alphabet。这个想法是让机器人使用摄像头和复杂的机器学习算法来观察周围的世界并从中学习,而无需被教导他们可能遇到的每一种潜在情况。谷歌的想法是,大型语言模型可以编码关于世界的丰富语义知识,这对于设计用于以自然语言执行任务的机器人很有用。LLM的明显缺点是“缺乏实战经验”。它在实验室中表现完美,但在现实生活中可能毫无用处。因此,研究人员建议“通过预训练技能提供真实世界的基础”来约束模型完成符合环境的自然语言动作。机器人可以充当语??言模型的“手和眼”,提供有关任务的高级语义知识/真实世界经验。谷歌使用一台巨大的6144处理器机器来训练PaLM(PathwaysLanguageModel)。培训资源包括大量多语言网络文档、书籍、维基百科文章、对话和微软GitHub网站上的编程代码。这样训练出来的AIagent可以根据自己的思维链条解释笑话、完成句子、回答问题和推理。接下来的问题是,如果这个agent用在机器人身上,如何提取和利用大型语言模型(LLM)的知识来完成物理任务?例如,如果我的饮料洒了,GPT-3会说你可以使用吸尘器,而LaMDA会说你需要我帮你找吸尘器吗?(令人困惑)大型语言模型无法响应此操作,因为它们不与真实环境交互。基于LLM的SayCan可以通过预训练模型形成的价值判断能力来处理复杂的、真实的指令。受此示例的启发,我们研究了如何在LLM中提取知识以使机器人能够遵循高级文本指令的问题。该机器人配备了一系列学习的“原子”行为技能,能够进行低级视觉运动控制。除了要求LLM简单解释说明外,我们还可以用它来评估个人技能在完成高级说明方面取得进步的可能性。假设每个技能都有一个可用性函数来量化其从当前状态成功的概率(例如学习价值函数),这个值衡量技能的可能性。这样,LLM就完成了每项技能对指令完成的贡献概率的描述。研究人员使用两个指标来评估系统的性能:(1)计划成功率,表明机器人是否为命令选择了正确的技能;(2)执行成功率,表明它是否成功执行了命令.数据显示,PaLM-SayCan的指令执行率也是所有模型中最高的。风险:如果机器人发生故障怎么办?好主意,但这项工作并非没有风险。大型语言模型的训练语料来自互联网,部分语言模型表现出种族主义或性别歧视等不良倾向,有时会被诱导发表仇恨言论或谎言。如果用这种模型来训练聊天机器人,结果就是一个会骂人会说话的语音助手。但是如果是训练机器人,它是有手有脚的。万一做了坏事怎么办?而且,比这更危险的是,如果这样训练出来的机器人有了意识,事情可能就会失控(类似的科幻电影有很多)。7月,一名谷歌员工声称软件是一名活生生的员工。人工智能专家的共识是,这些模型不是活的,但许多人担心它们会表现出偏见,因为它们是在大量未经过滤的、人类生成的文本上训练的。尽管如此,谷歌仍在继续努力,现在,研究人员无需为机器人执行的每项任务编写特定的技术指令,而是可以更简单地用日常语言与他们交谈。更重要的是,新软件可以帮助机器人自行解析复杂的多步骤指令。机器人现在可以解释他们以前从未听过的指令,并自行做出有意义的反应和行动。或许对于机器人来说,新的大门才刚刚打开,未来可能还是一个漫长的过程。多年来,神经网络和强化学习等人工智能技术已被用于训练机器人。取得了一些突破,但进展仍然缓慢。谷歌的机器人远未准备好用于现实世界,研究人员一再表示该机器人仍处于实验室中,没有将其商业化的计划。
