当前位置: 首页 > 科技赋能

比AlphaGo更神秘,解读Google自学机器人项目

时间:2024-05-22 11:35:19 科技赋能

小编|袁晨介绍:从AlphaGo开始,人机大战层出不穷,机器学习、深度学习的概念越来越深入人心。

实现强人工智能的捷径似乎指日可待。

有这样一个场景:两个机器人面对两扇紧闭的门。

他们向前伸出“手”,但根本没有抓住门把手。

于是他们重新开始,这次正面碰门把手,敲门框。

他们一次又一次地尝试。

经过几个小时的反复尝试,他们终于能够轻松地抓住门把手并打开门。

虽然已经有很多类型的机器人可以做到这一点,但上面描述的两种机器人明显不同:它们是由谷歌开发的,具有自主学习的能力,学会自己“开门”。

依靠一种称为“强化学习”的技术,他们训练自己执行特定任务,一遍又一遍地重复,并仔细记录过程。

著名的围棋人工智能AlphaGo也是基于同样的技术原理。

现在,它正在将机器人技术推向一个全新的领域。

除了一些视频和两篇博客文章之外,谷歌拒绝透露这项研究。

目前已知的是,这项研究是由加州大学伯克利分校的机器人学家谢尔盖·莱文(Sergey Levin)领导的。

当然,该项目仍处于早期阶段。

但对于机器行业来说,它显然代表了一种更广泛的可能性——机器可以学习自己做事,而不是严格遵循工程师预先设计的程序。

希望强化学习及相关方法能够促进自主机器人的发展。

毕竟。

这些方法成功地促进了纯数字领域许多技术的进步。

随着上述技术的不断进步,机器人硬件也在快速发展。

在谷歌发布的那些在线视频中,也强调了机器人的这一变化。

讽刺的是,这样的技术研究完全无视特朗普政府为美国工业带来更多就业机会的誓言——美国企业已经用机器人取代了大量人类工作岗位,而现在研究人员正在开发的自主学习机器无疑将能够取代更多人类工作岗位。

Ronnie Vuine 与哈佛大学认知科学家 Joscha Bach 共同创立了机器人公司 Micropsi。

“我们感兴趣的是能够与人类互动的机器人,”他说。

“想象一下,一个机器人完成了一部分工作,然后将其交还给人类,或者从人类那里接管了一部分工作。

如今,这个想法还没有实现。

” 1. 试错强化学习并不是一项新技术。

两年前,强化学习应运而生,当时谷歌收购了伦敦人工智能实验室 DeepMind,并利用该技术构建了一个可以以超人方式玩经典“雅达利”游戏的系统。

该游戏需要使用桨和弹跳球来击倒砖墙,经过训练和学习,DeepMind 的 AI 最终可以轻松地通关。

随后,该实验室将同样的技术应用于人工智能下围棋,并提前十年计划在这一历史悠久的游戏中取得突破。

DeepMind 创始人 Demis Hassabis 和他的团队将大约 10,000 条围棋比赛记录植入机器的深度神经网络——一种可以通过分析大量数据来完成学习任务的模式识别系统。

一旦系统学会了某种游戏,它就会不断地与自己“对战”,以达到更高水平的竞争。

强化学习特别适合游戏。

该技术由“奖励功能”提供支持,系统会自动跟踪哪些行为会带来奖励,哪些不会。

在游戏中,奖励是显而易见的:更多积分。

但在现实生活中,奖励功能有时不太明显,有时则更明显。

例如,对于谷歌的机器人来说,奖励就是成功打开门。

2、广阔的新世界 当然,打开大门只是迈入新世界的一小步。

对于研究项目来说,实现更雄心勃勃的目标变得极其复杂和快速更新,更不用说极其昂贵了。

这解释了为什么许多研究人员在将强化学习应用于现实世界之前,会使用数字模拟进行探索,以提高机器人的游戏能力。

例如,OpenAI是埃隆·马斯克投资10亿美元创办的人工智能实验室。

它构建了一个名为 Universe 的扫描软件平台,其中人工智能“代理”可以使用强化学习来掌握从游戏到网络浏览器等计算机应用程序。

理论上,这有助于实现现实生活中的智能操作代理。

如果你可以教人工智能玩驾驶游戏,同样的道理,你也可以教它开车。

Prowler.io 是一家总部位于英国剑桥的初创公司,也正在走同样的道路。

如今,这个小研究团队正在构建能够学习指导大型多人游戏的智能体《虚拟世界》。

但随着时间的推移,他们计划将这项工作扩展到现实世界的机器人和自动驾驶汽车。

今天真正的自动驾驶汽车不应该关注如何操作它们的具体细节,而是根据工程师编制的大量规则做出决策。

因为这不是真正的自动驾驶,也不是真正的自主决策。

Prowler 创始人兼首席执行官 Vishal Chatrath 将他之前的人工智能公司卖给了苹果公司,他认为强化学习和相关技术对于制造真正的自动驾驶汽车至关重要,这种汽车可以完成人类驾驶员自己能做的所有事情。

事物。

在柏林,与 Google 一样,Micropsi 已经将这些技术变为现实。

该公司成立于 2001 年,着眼于制造用于制造和其他工业用途的机器人。

它首先构建了一个机器人模拟系统,并通过强化学习对其进行训练。

该公司网站上的一段视频展示了这样一个系统:虚拟机器人手臂学习使用虚拟手指尖来平衡虚拟杆。

该系统模拟重力和机器人运动,并且附加功能会自动跟踪虚拟杆是否掉落。

“为了防止虚拟杆掉落,我们每秒给机器人一块饼干,”Vuine 说。

“如果棒子掉下来了,就惩罚它。

”现在,该公司正在将这些相同的技术应用于现实生活中的通用机器人机器。

3.现实世界的问题 麻烦的是,现实世界也需要新技术。

Vuine 声称他的公司可以解决计算机模拟中出现的任何机器人问题,但模拟只是模拟,而不是现实。

“如果你能在模拟中做到这一点,你可能无法在现实中做到这一点,”他承认。

“现实很难完全模拟。

”换句话说,你可以使用模拟来构建一个可以维持虚拟现实的系统。

一个杆平衡机器人,但教它将插头插入插座需要真正的插头和插座。

“将插头插入插座的任务无疑是容易的,因为有一个明显而简单的奖励机制。

然而,现实中的大多数行为都更难以评估。

当你把许多任务串在一起时,这些奖励系统变得非常复杂。

卡内基梅隆大学研究员 Abhinav Gupta 正在利用 Google 的资助探索类似的技术,希望在短期内解决如何有效使用强化学习的问题。

Chatrath 认为,至少目前来说,这是真正将 AI 应用于现实世界的最佳方式。

首先这个想法很简单:系统可以学习使用简单的机器,然后将它们学到的知识应用到更复杂的机器上。

机器学习的方式有很多种。