这年头,人工智能领域最火的炸鸡,无异于OpenAI开发的聊天机器人ChatGPT。ChatGPT是一种大型预训练语言模型,可以在对话中生成类似人类的文本响应。它的算法基于最流行的Transformer架构,这是一个使用自注意力机制处理输入数据的深度神经网络。广泛应用于各种自然语言处理任务。ChatGPT在大型文本对话数据集上进行训练,并使用自注意力机制来学习类人对话的模式和结构。这使得他的回答非常接近真人。甚至有人认为ChatGPT可以完全取代搜索引擎。在知乎作者DeFi的科普文章《科普:什么是ChatGPT?》中介绍了ChatGPT。如图:但是在文章的最后,作者给了大家一个彩蛋,说明这篇文章本身就是ChatGPT自己写的。比如上图中的“ChatGPT介绍”部分,作者在问ChatGPT:什么是ChatGPT?后来得到的答案,同样是“算法”部分,是作者问了“ChatGPT背后的算法是什么?”后的答案。从文章中我们可以看出,ChatGPT在这种场景下的回答几乎很难判断是不是机器人回答。难怪很多人都惊叹于它的性能。然而,另一群人对ChatGPT的性能并不满意。例如,知名程序员社区Stackoverflow在12月4日发布临时规定:禁止使用ChatGPT生成的内容在Stackoverflow上回答问题。原因是生成的内容准确率很低,这些似是而非的内容对整个网站和寻求正确答案的用户都是有害的。这里的主要问题是因为ChatGPT的使用门槛很低,所以最近几天很多人都在用ChatGPT回答别人提出的问题,而他们本身缺乏专业知识,没有能力验证答案是否生成通过ChatGPT是正确的,因此生成了很多毫无价值的,甚至是误导性的答案。其他人试了一些小学生的问题,ChatGPT的回答都不尽如人意。例如:这些简单问题的不尽如人意的答案背后,是我们对人工智能领域发展的深刻思考。在深度学习领域,研究人员常说一句话:如果你把数据拷问到一定程度,它就会坦白一切。这是一种自嘲。目前的人工智能领域主要依靠大量的训练数据来训练模型。模型的成功与训练数据量密切相关。那么这难免会引出一个问题:如果有一天,超级模型用全球最大的数据集训练后,仍然无法得到足够好的结果怎么办?毕竟对于普通人来说,不需要学尽世间所有的知识,就能拥有自己的学习和判断能力。更进一步,在所有真实数据上训练的数据是否会比在某些真实数据上训练的模型更好?考虑到一些真实数据对同一个问题有完全相反的答案。就好像总是有不同的人在争论同一个问题。而这些训练集势必会对神经网络的训练结果产生影响。或许,人工智能的真正突破还要等基础科学的突破。仿佛麦克斯韦方程组将人们带入了无线信号传输时代。在我们朝夕相处的空间里,或许隐藏着更深层次的秘密,等待人们去发现。
