人工智能的大脑回路与人类非常相似。OpenAI的最新研究引起热议。两个月前轰动全网的AI设计大师CLIP,刚刚被OpenAI“破解”。没想到,这个强大的人工智能与人类的思维方式如此相似。比如,无论是听到“炸鸡”这个词,还是看到真正的炸鸡,都可能流口水。因为你的大脑中有一组“炸鸡神经元”,专门负责对炸鸡做出反应。这个剪辑是相似的。无论是听到“蜘蛛侠”这个词,还是看到一张蜘蛛侠的图片,CLIP的一个特殊区域开始响应,就连原本用来响应红蓝的区域也会“躁动”起来。OpenAI发现原来CLIP有一个“蜘蛛侠神经元”。在脑科学中,这并不是什么新鲜事。因为早在15年前,研究人脑的科学家就发现,一张脸对应着一组神经元。但这是人工智能向前迈出的一大步。过去,从文字到图片,从图片到文字,用的是两个系统,工作方式也不一样。但是,CLIP的工作方式与人脑非常相似。CV和NLP不仅在技术上有联系,思想上也有相同的思路,也有专门的处理区域。看到两者的相似之处,有网友表示:太可怕了,说明通用人工智能(AGI)来得比大家想象的要早。更重要的是,OpenAI惊讶地发现,CLIP对图片的反应似乎类似于癫痫患者大脑中的神经元,其中包括对情绪做出反应的神经元。也许人工智能在未来可以帮助治疗神经系统疾病。AI的“大脑”其实和人类是一样的。回过头来看,CLIP是一匹神奇的马。不久前,OpenAI发布了脱胎于GPT-3的DALLE,可以根据文字描述准确生成图片。DALL·E对自然语言和图像的理解和融合达到了前所未有的高度。一经问世,立即引来了吴恩达、Keras之父等大咖的称赞。DALL·E的核心部分是CLIP。简单地说,CLIP是一个重排序模型,它检查所有DALL·E生成的结果,并挑选出最好的展示。CLIP能当“裁判”,离不开能够“整合”理解文字和图片的意思,但这种能力从何而来,此前人们并不知道。OpenAI随后深入挖掘CLIP神经网络的原理结构,发现其多模态神经元具有类似于人脑的工作机制:它们可以同时对文字和图像中的相同含义做出反应。所谓模态,是指某个过程或事物包含多种不同的特征。图像通常与标签和文字说明相关联,是完整理解事物的要素。例如,当你看到蜘蛛侠或蜘蛛侠这个词时,你会想到穿着红蓝紧身衣的超级英雄。熟悉了这个概念后,看到这样一张黑白手绘图,你马上就能明白这是《蜘蛛侠》:CLIP中的多模态神经元在能力上与人类没有区别。OpenAI已经发现了几个负责某些事情的神经元,包括18个动物神经元和19个名人神经元。甚至还有专门负责理解情绪的神经元:其实人本身就是多模态学习的总和。我们可以看到物体、听到声音、感觉到质地、闻到气味和尝到味道。人工智能要摆脱以往“人工智障”的机械工作方式,一条路径是让它和人类同时理解多模态信号。因此,有研究者认为多模态学习才是人工智能真正的发展方向。在实现中,通常对已识别的特征子网络的输出进行加权,以便每个输入模态都可以对输出预测做出学习贡献。根据任务的不同,在子网络上附加不同的权重来预测输出,从而使神经网络获得不同的性能。至于CLIP,从研究人员的测试结果可以清楚地看出,它是从语言模型中诞生的,对文本的敏感度高于对图像的敏感度。攻击AI也更容易。然而,AI“头脑”中文字和图像的联动是一把双刃剑。如果我们在贵宾犬上添加几串美元符号,CLIP会将其识别为存钱罐。OpenAI将这种类型的攻击称为“印刷攻击”。这意味着我们可以在图片中插入文字来实现对AI的攻击,甚至不需要复杂的技术。只需一张纸和一支笔,黑客AI从未如此简单。Apple就这样变成了“Apple”iPod。甚至有网友将苹果改装成图书馆。中国网友应该比较熟悉。看来我们可以像封印丧尸的符咒一样封印AI了。CLIP在防止对抗性攻击方面还有很多工作要做。AI黑匣子并没有那么黑即便如此,“多模态神经元”仍然是AI可解释性的重要进步。可用性和可解释性就像鱼和熊掌。我们现在使用的最准确的图像识别模型的可解释性很差。然而,由可解释的人工智能制作的模型很难在实践中应用。人工智能不满足于实用。如果不能理解人工智能医疗和无人驾驶,伦理道德就会受到质疑。OpenAI表示,大脑和像CLIP这样的合成视觉系统似乎具有非常相似的信息组织方式。CLIP证明了AI系统并不像我们想象的那么黑暗。CLIP不仅是设计大师,还是一个脑洞大开的AI,未来可能会减少人工智能的失误和偏见。
