刚刚,ChatGPT官方宣布其数学能力再次升级。网友:终于熟练掌握十以内的加减法了。人们在试用中逐渐发现,数学能力是ChatGPT的一大短板,就连简单的“鸡和兔同笼”的问题都会算错。想必考虑到这一点,ChatGPT刚刚宣布了一项重要更新:改进了“真实性”和“数学能力”。这是ChatGPT自去年11月推出以来的第三次更新,但由于“更新说明”过于模糊,人们还需要经历一个探索新能力的过程。日前,计算机科学家、Wolfram语言之父StephenWolfram将理工神器Wolfram|Alpha与ChatGPT结合,为后者注入超强计算知识,实现互补,效果相当好的。那么,这次更新后的ChatGPT数学能力能否与之抗衡呢?看来……对比的结果并不尽如人意:“只能说神经网络不是用来干这个的”,SebastianRaschka感到很无奈。也有人发现升级后的ChatGPT“变脾气了”:“你数学是哪位老师教的?”面对一道十以内的加减法题,它的语气很像家长辅导孩子做作业的语气。也许这是一个“巧合”?看来数学真的很难。总之,可以期待后续一波有趣的demo。数量太多:ChatGPT及其竞争对手“一旦公司可以使用OpenAI的API在ChatGPT之上构建,未来6到12个月将带来实验的爆炸式增长。出现的杀手级用例可能围绕生成人工智能对知识的影响管理。”NicolaMoriniBianzino。在最近的一次公开活动中,安永全球首席技术官NicolaMoriniBianzino表示,在企业中使用ChatGPT没有“杀手级”用例。但这可能很快就会改变,他预测未来6到12几个月将带来大量实验,特别是一旦公司能够使用OpenAI的API在ChatGPT上构建。Bianzino将生成AI对知识管理的影响描述为“AI的辩证法”。“知识公司倾向于将知识存储在一个非常扁平的二维方式,使访问、交互和对话变得困难。我们在20、30、40年前尝试构建专家系统。但进展并不顺利,因为它们太死板了。我认为这种技术有望克服专家系统的许多问题。”尼古拉·莫里尼·比安齐诺(NicolaMoriniBianzino)说。与此同时,ChatGPT的竞争对手也层出不穷,这条赛道也越来越“滚动”。从Anthropic的Claude、DeepMind的Sparrow、Google的LaMDA到CharacterAI,似乎每天都有新的竞争者加入游戏。Anthropic是一家旧金山初创公司,由几位离开OpenAI的研究人员于2021年创立。成立不到一年,该公司就宣布了高??达5.8亿美元的融资,据报道周五还有3亿美元的融资。该公司开发了一款名为“Claude”的人工智能聊天机器人,目前可通过Slack集成进行封闭测试,据报道它与ChatGPT类似,甚至有一些改进。Anthropic将其使命描述为“致力于构建可靠、可解释和可操作的人工智能系统”。DeepMind也是这条赛道上不可忽视的力量。该公司在9月份的一篇论文中介绍了“麻雀”,被誉为“朝着创建更安全、偏见更少的机器学习系统迈出的重要一步”。Sparrow是“一种有用的对话代理,可降低不安全和不适当答案的风险”,旨在“与用户交谈、回答问题并帮助寻找证据”。不过,DeepMind的安全研究员、Sparrow论文的主要作者GeoffreyIrving表示,DeepMind认为Sparrow是一个基于研究的概念验证模型,尚未准备好部署。在《时代周刊》两周前的一篇文章中,该公司的首席执行官兼联合创始人DemisHassabis表示,DeepMind正在考虑在2023年的某个时候发布其聊天机器人Sparrow的“私人测试版”。这将使公司能够开发基于强化学习的功能,例如引用来源——ChatGPT缺乏的功能。说到谷歌的LaMDA,这个模型在去年夏天引发了激烈的争论——谷歌工程师BlakeLemoine因声称LaMDA具有感知能力而被解雇。LaMDA被认为是ChatGPT最大的竞争对手之一,即使它不是Lemoine认为的那样。谷歌在2021年发表的一篇博文中表示,LaMDA的对话技巧“已经酝酿多年”。与ChatGPT一样,LaMDA建立在Transformer架构之上,并且也在对话方面进行了训练。根据谷歌的说法,“在培训期间,LaMDA发现了一些将开放式对话与其他形式的语言区分开来的细微差别。”《纽约时报》在1月20日的一份报告中,谷歌创始人拉里佩奇和谢尔盖布林上个月会见了公司高管,讨论了ChatGPT可能对谷歌价值1490亿美元的搜索业务构成的威胁。谷歌发言人在一份声明中表示:“我们继续在内部测试我们的人工智能技术,以确保其有用和安全,我们期待尽快与外界分享更多经验。”另一个强大的玩家是CharacterAI。由Transformer论文的作者之一诺姆·沙泽尔(NoamShazeer)创立的公司,逐渐家喻户晓。该公司的人工智能聊天机器人技术允许用户与任何人聊天或角色扮演,例如模仿伊丽莎白女王和莎士比亚等历史人物。该技术目前可以免费使用,Character正在“研究用户如何与之互动,然后制定具体的创收计划”。传百度将发布类似ChatGPT的聊天机器人,将引起国内AI从业者的关注,据路透社、彭博社等外媒报道,百度计划在3月推出类似OpenAI的ChatGPT的人工智能聊天机器人服务.消息人士称,百度计划在用户提出搜索请求时整合聊天机器人生成的结果,而不仅仅是链接。“该工具尚未命名,将嵌入主搜索服务,用户将返回对话式搜索结果。”在去年12月的一次内部讨论中,百度CEO李彦宏分享了他对ChatGPT的看法:“把这么酷的技术变成大家需要的产品是最难的事情,我希望百度“至少有一个高——新的一年,增长、创新业务,真正出乎我们的意料”。据《科创板日报》1月30日报道,百度确实有推出类似ChatGPT的聊天机器人的计划,但具体时间不详。百度CEO李彦宏对该项目的定位是“引领搜索体验的代际变革”,他在内部指出,相关技术已经到了临界点,百度在其中有更大的机会。检测工具:无处可藏大型语言模型ChatGPT生成文本的能力虽然强大,但同时其在学校作业、论文发表等领域的滥用也引起了广泛关注。因此,学术界开始探索检测ChatGPT等大型语言模型(LLM)生成的文本的方法和工具。马里兰大学的几位研究人员研究了ChatGPT等语言模型输出的水印。在论文《A Watermark for Large Language Models》中,他们提出了一种高效的水印框架,其中水印嵌入对文本质量的影响可以忽略不计,并且可以使用高效的开源算法进行检测,而无需访问语言模型API或参数。我们的方法可以检测相对较短的合成文本(少至25个标记),同时使人类文本在统计上不可能被标记为机器生成的。论文地址:https://arxiv.org/pdf/2301.10226v1.pdf斯坦福大学的几位研究人员在论文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中证明了LLM采样的文本倾向于占据模型对数概率函数的负曲率区域。利用这一观察,他们定义了一个新的基于曲率的标准来判断一段文章是否由给定的LLM生成。研究人员将他们的方法称为DetectGPT,它不需要训练单独的分类器、收集真实或生成的段落的数据集,以及明确地为生成的文本加水印。DetectGPT仅使用感兴趣的模型和另一个通用的预训练语言模型(例如T5)计算的对数概率来生成段落的随机扰动。结果发现,DetectGPT比当前用于模型样本检测的零样本方法更具辨别力,显着地将20B参数GPT-NeoX生成的假新闻故事检测从最强的零样本基线的0.81AUROC提高到0.95AUROC。代码和数据将在未来发布。DetectGPT检测GPT-3生成文本的示意图。论文地址:https://arxiv.org/abs/2301.11305除了论文形式呈现的检测方案外,一些个人还介绍了强大的检测工具。例如,来自HiveAI的ML工程师正在研究ChatGPT检测器,其方案可以识别由ChatGPT、GPT-3和其他流行的AI引擎生成的文本。从内部基准测试结果来看,该方案明显优于GPTZero和OpenAIGPT2OutputDetector等类似方法。在内部数据集上,模型平衡精度>99%,而GPTZero的精度约为60%,OpenAIGPT2输出检测器的精度为84%。Demo地址:https://hivemoderation.com/ai-generated-content-detection最后,GPTZero也迎来了更新——GPTZeroX,专为教育工作者打造的全新AI检测模型。该模型混合使用AI生成的文本和人类文本,并突出显示最有可能由AI生成的文本部分。还构建了一个管道来处理批量上传PDF、Word和.txt格式的文件,从而可以轻松地运行多个文件。Demo地址:https://gptzero.substack.com/p/gptzerox总之,随着AI生成文本检测工具的日益丰富和完善,ChatGPT等大型语言模型在应用时势必会越来越正式,帮助人们更高效地释放人工智能的能力。
