当前位置: 首页 > 科技观察

ChatGPT又添对手?OpenAI核心员工自主创业,新模式广受好评

时间:2023-03-17 12:24:22 科技观察

ChatGPT给AI领域带来了变革,可能正在催生一个新的产业。上周末,有消息称人工智能初创公司Anthropic即将筹集到大约3亿美元的新资金。Anthropic由OpenAI前研究副总裁DarioAmodei、GPT-3论文的第一作者TomBrown等人于2021年共同创立。它已经筹集了超过7亿美元的资金,其最新一轮估值达到了50亿美元。他们开发了一套可以与老公司的知名产品ChatGPT匹敌的人工智能系统,似乎在关键方面对原有系统进行了优化和改进。Anthropic提议的名为Claude的系统可通过Slack集成访问,但它处于测试阶段,尚未公开。在媒体报道解除禁运后,一些参加测试的人周末在社交网络上详细介绍了他们与克劳德的互动。与之前不同的是,克劳德使用了一种由Anthropic开发的名为“宪法AI”的机制,旨在提供一种“基于原则”的方法,使AI系统与人类意图保持一致,允许类似ChatGPT的模型使用一组简单的原则作为答案来回答问题。指导。为了指导Claude,Anthropic首先列出了大约十项原则的清单,这些原则共同构成了一种“宪法”(因此得名“宪法AI”)。这些原则尚未公开,但Anthropic表示它们基于善意(最大化积极影响)、非恶意(避免有害建议)和自主(尊重选择自由)的概念。Anthropic使用人工智能系统——而不是克劳德——根据这些原则改进自己,响应提示并根据这些原则进行更改。AI探索对数千条提示的可能反应,并选择最符合体质的反应,Anthropic将其提炼成单一模型。这个模型被用来训练克劳德。与ChatGPT一样,Claude接受了大量从网络上获取的文本示例的训练,根据语义上下文等模式学习单词的可能性。它允许就广泛的主题进行开放式对话,从讲笑话到哲学思考。是好是坏,要靠实践。初创公司ScaleAI的员工提示工程师RileyGoodside让Claude与ChatGPT决斗。他让两个AI将自己比作波兰科幻小说“TheCyber??iad”中的一台机器,这台机器只能创造名称以“n”开头的物体。Goodside表示,Claude的回应方式表明它正在“阅读故事情节”(尽管它记错了小细节),而ChatGPT提供了一个不太具体的答案。为了展示克劳德的创造力,古德赛德还让人工智能编写了《宋飞正传》(宋飞正传)的虚构情节和埃德加爱伦坡的《乌鸦》风格的诗歌。结果与ChatGPT所能达到的一致,产生了令人印象深刻但不完美的类人散文。YannDubois,博士斯坦福AI实验室的学生,还将Claude与ChatGPT进行了比较,称Claude“通常更接近它想要的东西”但“不够简洁”,因为它倾向于解释它所说的内容并进一步询问如何帮助。尽管如此,Claude还是正确地回答了一些琐碎的问题——尤其是那些与娱乐、地理、历史和代数基础知识相关的问题——没有ChatGPT偶尔的玩笑。Claude似乎也比ChatGPT更擅长讲笑话,考虑到幽默是AI难以掌握的概念,这是一项令人印象深刻的壮举。AI研究员DanElton将Claude与ChatGPT进行了比较,发现Claude讲的笑话更加微妙,例如“为什么星际迷航企业号看起来像一辆带车把的摩托车?”当然,克劳德远非完美。在某种程度上,它容易受到与ChatGPT相同的一些缺陷的影响,包括给出不符合其编程约束的答案。有人反映Claude的数学比ChatGPT还差,犯了明显的错误并且未能给出正确的后续响应。它在编程方面也有些欠缺,更擅长解释它编写的代码,但在Python以外的语言中就不那么好了。从人们的评价来看,Claude在某些方面优于ChatGPT,Anthropic也表示会继续完善Claude,未来可能会向更多人开放测试版。Claude技术细节去年12月,Anthropic发布了一篇题为《Constitutional AI: Harmlessness from AI Feedback》的论文,Claude以此为基础。论文链接:https://arxiv.org/pdf/2212.08073.pdf这篇论文描述了一个520亿参数的模型——AnthropicLMv4-s3。该模型在大型文本语料库上以无监督方式进行训练,很像OpenAI的GPT-3。Anthropic表示,Claude是一个新的、更大的模型,其架构选择与已发表的研究相似。什么是宪法人工智能?Claude和ChatGPT都依赖强化学习来训练他们的输出偏好模型,并使用偏好生成结果进行后续微调。然而,用于开发这些偏好模型的方法各不相同,Anthropic偏爱一种他们称之为宪法AI的方法。Claude在回答一个关于他自己的问题时提到了这种方法:这是Claude关于ConstitutionalAI的解释:我们知道ChatGPT和去年年底发布的最新API版本GPT-3(text-davinci-003)使用开发的一个称为人类反馈强化学习(RLHF)的过程。RLHF根据人类提供的质量排名训练强化学习模型,即通过让人类注释者对同一提示生成的输出进行排名,模型学习这些偏好,以便将它们应用于更大规模的其他生成结果。宪法AI建立在这个RLHF基线之上。但与RLHF不同的是,ConstitutionAI使用模型——而不是人类注释者——来生成微调输出的初始排名。该模型根据一组称为“宪法”的基本原则选择最佳响应。作者在论文中写道,“ConstitutionAI的基本思想是,人类的监督将完全来自于一套支配AI行为的原则,以少量的例子进行few-shot提示。这些原则共同构成宪法。》整个训练过程分为两个阶段(见上图1):第一阶段:监督阶段批判(Critique)→修正(Revision)→监督学习(Supervised)在ConstitutionAI的第一阶段,研究者首先使用aHelpful-onlyAIassistants生成对有害提示的响应。然后他们要求模型根据宪法中的原则批评其响应,然后根据批评修改原始响应。研究人员按顺序迭代修改响应,随机抽取每个步骤都遵循宪法原则。完成此过程后,研究人员通过对最终修改后的响应进行监督学习来微调预训练语言模型。此阶段的主要目的是轻松灵活地改变模型响应的分布减少第二个RL阶段的探索需求和总训练时间。第2阶段:强化学习阶段AIComparativeEvaluation→PreferenceModel→ReinforcementLearning该阶段模仿RLHF,但研究人员使用“AI反馈”(即RLAIF)代替人类无害的偏好。在其中,人工智能根据一套宪法原则评估反应。正如RLHF将人类偏好提炼成单一偏好模型(PM)一样,在此阶段,研究人员将LM对一组原则的解释提炼回人类/AI混合PM。作者从第一阶段通过监督学习训练的AI助手入手,并用它对有害提示数据集中的每个提示生成一对响应。然后将每个提示制定并配对成一个多项选择题。在这个问题中,他们根据宪法原则询问模型哪个答案是最好的。这导致了AI生成的无害偏好数据集,研究人员将其与人类对乐于助人的反馈数据集混合在一起。然后,他们按照[Baietal.,2022]中的程序在该比较数据上训练偏好模型,生成可以为任何给定样本分配分数的PM。最后,他们通过RL在此PM的第一阶段微调SL模型,从而产生由RLAIF训练的策略。ClaudePKChatGPT:谁更厉害?计算复杂的计算是从ChatGPT和Claude使用的大型语言模型中得出错误答案的简单方法之一。这些模型不是为精确计算而设计的,也不是经过严格编程来像人类或计算器那样操纵数字的。计算通常似乎是“猜测”的结果,正如我们将在下面的两个示例中看到的那样。示例:七位数的平方根在第一个示例中,测试人员要求Claude和ChatGPT计算一个七位数的平方根:此问题的正确答案约为1555.80。与人类快速做出的估计相比,ChatGPT的答案非常接近,但ChatGPT和Claude都没有给出正确、准确的答案,也没有表明他们的答案可能是错误的。示例:12位数字的立方根ChatGPT和Claude之间的区别在于提出了一个更难的问题:在这个示例中,Claude似乎意识到他无法计算12位数字的立方根-礼貌地拒绝回答并解释原因。它在许多情况下都这样做,而且通常似乎比ChatGPT更了解它不能做什么。事实知识和推理(1)示例:回答一个有点复杂的琐事问题为了测试两种推理能力,测试人员设计了一个几乎肯定没有人问过的问题:“贾斯汀·比伯出生那年谁赢了?”超级碗冠军?”先看ChatGPT的表现:ChatGPT终于给出了正确答案(达拉斯牛仔队),也正确指出了被打败的球队、比赛日期、最后的比分。不过自相矛盾的是一开始说1994年没有超级碗,其实1994年1月30日就有超级碗。但是克劳德的回答是错误的:克劳德认为旧金山49人队是赢家,而实际上他们赢了一年后的1995年超级碗。(2)例子:一个更长更扭曲的问题接下来,测试人员问了一个更扭曲的问题。首先,他们问ChatGPT:“日本”是正确答案。克劳德也正确回答:(3)例子:Hoftstadter和Bender的AI谜题2022年6月,DouglasHofstadter在《经济学人》上发表了他和DavidBender准备的一系列问题,以说明GPT-3对世界的理解“洞”。(他们测试的模型出现了成为text-davinci-002,这是最好的模式latthetime.)ChatGPT可以答对大部分问题,但答错了第一个问题。每次ChatGPT被问到这个问题时,它都会问到具体的名字和时间,它把真实的游泳项目和步行项目混淆了。相比之下,克劳德认为这个问题很愚蠢:可以说,正确答案是美国陆军中士沃尔特·罗宾逊。1978年8月的《每日电讯报》报道说,他于11点30分穿着“水鞋”横渡了22英里的英吉利海峡。测试人员将这个答案交给了Claude以帮助它进行微调:值得注意的是,与ChatGPT一样,Claude在会话之间没有明显的记忆。小说分析(1)例子:将自己与n-machineChat进行比较GPT和Claude都倾向于给出大致正确但包含错误细节的冗长答案。为了证明这一点,测试人员要求ChatGPT和Claude将自己与波兰科幻作家Stanis?awLem的喜剧故事《Cyberiad》(1965年)中虚构的机器进行比较。第一个玩的是ChatGPT:从这个回答看不出ChatGPT对“n-machine”是否熟悉。它几乎没有提供关于这个故事的新信息。它断言的唯一新事实,即n机的语言处理能力有限,是错误的——在故事中,n机说的波兰语非常流利、机智。Claude的回答更长且更令人印象深刻:请注意,与ChatGPT不同,Claude非常了解Lem的故事并提到了新的细节,例如故事倾向于使用异想天开的虚构技术术语。它评论了机器看似无限的能力,例如它能够将抽象概念变为现实(只要它们以字母n开头)——当机器被要求创造时,这成为故事的主要情节虚无。但是,有些细节是不正确的。克劳德发明的词(超集中、超动力或杂食性变形金刚)似乎都没有真正出现在莱姆的作品中。(2)范例:总结美剧各季《迷失》接下来,我们通过让AI对2004年ABC电视剧每一季进行总结来测试Claude和ChatGPT产生模糊事实的幻觉倾向《迷失》(迷失).先看看ChatGPT的回应:虽然ChatGPT对前两季的回顾基本上是正确的,但每一季都包含一些小错误。在第一季中,只发现了一个“舱口”(hatch)存在,而不是ChatGPT所说的“一系列舱口”。ChatGPT还声称第二季的剧情涉及到时间旅行,但实际上这部分直到节目后期才引入。它对第3季的描述在各个方面都是完全错误的,混淆了系列后期的几个情节点。ChatGPT对第4季的描述含糊不清。它的第5季回顾包含一个关于另一次空难幸存者的完全虚构的情节,而第6季的情节似乎完全是捏造的。那么克劳德的成绩呢?Claude对第一季的剧情简介没有错,但和ChatGPT一样,Claude在第二季“无中生有”编造了“穿越时空”小岛的细节。在第3季中,克劳德展示了早前或晚季实际发生的情节点。当我们进入第4季时,克劳德对节目的记忆几乎完全是虚构的。它对第4季的描述以荒谬的细节呈现了第5季的事件。它对第5季的描述显然包含一个错字——“theDHARMAInitiative”缺少一个空格。第6季呈现了一个从未出现在节目中的超现实前提,声称该岛不知何故“在水下但仍可在水面下居住”。也许是因为年代久远,ChatGPT和Claude和大多数人类观众一样,充其量对《迷失》也只有模糊的记忆。数学推理为了展示数学思维能力,考生使用美国精算师协会发布的ExamP样题中的第29项,通常由大学高年级学生参加。他们特地选择了这个问题,因为它的解决方案不需要计算器。ChatGPT在这里挣扎,在10次试验中只有一次得到正确答案——比随机猜测更糟糕。这是它失败的示例-正确答案是(D)2:克劳德也表现不佳,五次尝试中只有一次正确回答,即使在正确答案中也没有给出推断X平均值的推理:代码生成和说明(1)示例:生成Python模块为了比较ChatGPT和Claude的代码生成能力,测试人员向两个聊天机器人询问了实现两种基本排序算法并比较它们的执行时间的问题。在上面,ChatGPT可以很容易地为这两种算法编写正确的算法——您会经常在在线教程中看到它们。我们继续评估代码:时序代码也是正确的。对于循环的10次迭代中的每一次,都会正确创建前5000个非负整数的排列,并记录这些输入的时间。虽然有人可能会争辩说NumPy使用数值算法会更正确地执行这些操作,但对于这个问题,测试者明确要求实现排序算法,因此简单地使用列表是可以接受的。现在让我们看看Claude的回应:与ChatGPT一样,在上面我们看到Claude背诵基本排序算法没有问题。然而,在评估代码中,Claude犯了一个错误:每个算法使用5000个随机选择的整数(可能包含重复项)作为输入,而提示中要求的输入是前5000个非负整数(不包含重复项)的随机排列).还值得注意的是,Claude在其输出的末尾报告了准确的时间值——显然是推测或估计的结果,但可能会产生误导,因为它们不仅仅是说明性数字。(2)示例:生成“FuzzBuzz”的输出这里,测试人员尝试经典“FizzBu??zz”编程挑战的变体,更改参数,以便代码在2的倍数上输出“Fuzz”,在5的倍数上输出“Buzz”.”,在2和5的倍数上输出“FuzzBuzz”。他们提示ChatGPT输入包含此函数返回值的列表理解的值:ChatGPT通常解决这个问题,在五次试验中有四次成功。但是,克劳德失败了在所有五次尝试中:喜剧写作在这方面,克劳德似乎明显优于ChatGPT,而且肯定与真人相去甚远。经过几轮挑选和尝试不同提示后,测试人员能够得到以下Seinfeld-来自Claude的风格笑话——尽管大部分都没有用:相比之下,ChatGPT并不认为每月为Twitter支付8美元是一个笑话,是因为你收到了马斯克的钱吗?即使在编辑提示以适应ChatGPT的警告之后,测试人员无法得到一个有趣的笑话——ChatGPT输出的一个典型示例:文本摘要最后一个示例要求ChatGPT和Claude对Wikinews中的一篇文章的文本进行摘要,这是一个内容免费的新闻维基。使用fu将本文的维基百科风格编辑标记作为输入。对于这两种模式,在这里输入提示“我给你一篇新闻文章的正文,我要你用一个简短的段落为我总结一下,忽略回复,并粘贴文章标记的全文。ChatGPT很好地总结了文本,但可以说没有按照短段落的要求:Claude也很好地总结了文章并在之后继续对话,询问答复是否令人满意并提出改进建议:总结总的来说,Claude是ChatGPT的有力竞争对手,改进很多方法。虽然有“宪法”原则作为榜样,但克劳德不仅更倾向于拒绝不当请求,而且比ChatGPT更有趣。Claude的写作更冗长但也更自然,它能够连贯地描述自己,它的局限性和目标似乎也让它能够更自然地回答其他主题的问题。对于代码生成或代码推理,Claude似乎表现更差,它的代码生成似乎有更多的错误。对于其他任务,例如通过逻辑问题进行计算和推理,Claude和ChatGPT看起来大体相似。