当前位置: 首页 > 科技观察

AI可以记住昨天的你,但要触及场景还是有点难度

时间:2023-03-11 22:23:58 科技观察

人工智能要形成长时记忆,还需要脑科学、神经科学、心理学、行为经济学等学科的交叉研究。记住某事并能够回忆起它是人类与生俱来的能力。记忆使我们能够回忆起过去的事件,并根据这些事件做出未来的决定。人工智能代理可以做同样的事情吗?最近,谷歌的人工智能公司“深度思维”(DeepMind)提出了一种方法,可以让代理人使用特定的记忆来信任过去的行为并做出未来的决定。做出正确的决定。相关成果发表在最新一期的《自然·通讯》上。那么,我们让AI产生的记忆和人类的记忆是一回事吗?人工智能可以通过哪些方式产生记忆?与以往相比,《深度思考》提出的新方法有何不同?在智能记忆方面,我们还需要做出哪些努力?让AI产生“记忆”的四种方法记忆是我们对过去经历进行编码、存储、回忆等的能力。一般来说,它可以被认为是利用过去的经验来影响当前行为的能力。它使人类能够从以前的经验中学习并与当前的实践建立联系。生活中那些触动我们的人或事,往往会引发回忆,也就是我们通常所说的情感。“人类的长期记忆实际上呈现出多模态和场景化的特征,即一个记忆事件在存储时包含多个维度,当某个维度被触发时,可以快速找到线索并回忆起来。”远望智库人工智能业务部部长、图灵机器人首席战略官谭明洲在接受科技日报记者采访时表示,人们往往高估了内存量。事实上,我们的记忆能力是非常有限的,所以人类的记忆本身就是高度抽象的。我们通常选择对事件进行特征提取,其中很多只是一般性的和模糊的。比如回忆一部电影,我们不会一帧一帧地准确回忆完整的成像,但是如果相似的场景再次出现,我们就会回忆之前的场景。在以往的研究中,有什么方法可以让AI回忆起来?谭明洲说,常用的方法有四种:第一种是长短期记忆网络。它由嵌入网络中的显式记忆单元组成,其功能是更长时间地记住信息。这项技术主要被谷歌、亚马逊和微软等公司用于语音识别、智能助手等。第二种方式是弹性权重合并算法。该算法主要用于多种游戏的序列学习。《DeepMind》使用了这种与记忆巩固相关的算法,目的是让机器学习、记忆并能够检索信息。第三种方法是可微分神经计算机,其特征是神经网络连接到记忆系统,像传统计算机一样存储信息并从示例中学习。第四种方法是连续神经网络,主要用于迷宫学习,解决复杂的连续任务,同时可以迁移知识。解决长期信贷配置问题是关键。目前,AI产生的记忆和人类的记忆一样吗?谭铭洲回答说:“目前AI的记忆还只是把学习得到的信息进行编码和存储,然后转化为认知过程。以前的做法只是让AI把发生的一切都存储起来,但是有区别了介于记忆和存储之间。记忆是为了有效的回忆。人类回忆的方式往往是跨越各种阈值的,比如通过某个牌子突然想起某件事。因此,为了让AIagent判断是否应该记住某件事发生在过去,关键是要采取一些方法,让它做出评估,达到人类记忆的效果。”让AI回忆过去的事件涉及到长期信用分配:即如何评价行为在长期行为序列中的效用。行为与结果之间的延迟。据报道,在人工智能的研究中,在长序列中评估个体行为的效用问题称为信用分配问题。这种评估可以对过去的行动或计划的未来行动进行评分。谭明洲解释说:“特别是在强化学习中,代理获得指导的唯一途径是通过奖励,而奖励通常是稀疏和延迟的。当代理人被奖励时,很难知道哪些行为应该被信任,哪些行为应该被信任。“这就是信用分配的问题。”此外,谭明洲介绍,要让AI像人类一样产生记忆,首先要让AI学会情景记忆和自传体记忆,而AI之所以很难做到这一点,是因为情景记忆和自传体记忆具有非常强烈的个体经验特征,情景记忆和自传体记忆一旦脱离了所涉及的人,就失去了生命力,这对于机器来说是很难想象的,毕竟对于机器来说,精神可以独立于物质存在,经验可以独立于主体而存在。此外,还要防止机器可能经历的灾难性遗忘。认知心理学研究表明,人类自然认知系统的遗忘并不需要完全抹去之前的信息。但对于机器来说,遗忘是灾难性的,就是需要抹掉之前的信息。相对于h的复杂记忆人类,它还处于起步阶段。在谭明舟看来,这个“深度思考”提出将范式建立在深度强化学习的基础上,引入长期信用分配原则。首先,代理需要编码和存储感知和事件记忆;其次,智能体需要通过识别和访问过去事件的记忆来预测未来的回报;第三,智能体需要根据它们对未来奖励事件的贡献重新评估这些过去的事件。这允许代理使用特定的记忆来信任过去的行为并对未来做出正确的决定。为了做到这一点,DeepThinking论文表明,它的首要工作是将任务结构形式化,主要包括两类任务。具体来说,在第一个信息获取任务中:在第一阶段,agent需要探索一个环境来获取信息,而没有立即奖励;第二阶段,agent在长时间任务中从事不相关的干扰任务,并获得很多附带奖励;第三阶段,agent需要利用第一阶段获得的信息获取远程奖励。在第二类因果任务中:在第一阶段,agent需要采取一个动作来触发一个只有长期因果关系的事件;第二阶段也是干扰任务;在第三阶段,为了成功,代理需要使用环境变化来获得成功。在研究这个结构的完整任务之前,研究人员考虑了让agent执行一个更简单的被动过程的任务——“被动视觉匹配”,即agent不需要采取任何主动措施来收集信息,就像一个人走在大街上,就像是在不经意间观察到某些信息。“DeepThinking”论文在玩游戏的过程中呈现了一个简单的场景,让AIagent记住已经探索过的路径和策略。当然,与人类复杂的记忆机制相比,还处于早期阶段。谭明洲强调,正如论文所述,新方法的范式拓宽了人工智能研究的范围。这是一个有趣的课题,涉及人脑科学的研究,以及神经科学、心理学和行为经济学等多学科交叉研究的尝试。未来任重而道远,需要更加开放的探索。延伸阅读目前,人工智能系统不具备长期记忆。从功能上看,人脑可以分为几个模块:寄存器、短时记忆、长时记忆、中枢控制模块。人脑通过视觉、触觉等五个传感器从外界接收信息,有寄存器。如果我们注意这些信息,大脑就可以将这些信息转化为短期记忆的内容,可持续30秒左右。如果我们有意识地想要记住这些内容,大脑就会将短期记忆的内容转移到长期记忆中。长期记忆包含信息和知识。简单地说,信息代表世界的事实,知识代表人们对世界的认识,两者之间不一定有明确的界限。人们在长时记忆中存储信息和知识时,新的内容与已有的内容相联系,规模不断增大,这是长时记忆的特点。长期记忆实际上存在于大脑皮层,记忆意味着改变脑细胞之间的联系,建立新的联系,形成新的网络模式。我们可以认为目前的人工智能系统是没有长时记忆的。无论是AlphaGo还是自动驾驶汽车,它们都是复用已经学习过的模型或者人工定义的模型。他们没有持续获取信息和知识并向系统添加新信息和知识的机制。有学者认为,拥有长时记忆将使人工智能系统向更高阶段进化。想象一下,在5-10年内,构建这样一个智能系统是可能的。在这个系统中,有语言处理模块,包括短期记忆和长期记忆。系统可以不断地自行读取数据,将知识压缩在数据中。进入长期记忆模块。构建具有长时记忆的智能问答系统正是我们目前的愿景。