AI可以写高考高分作文,但离写小说还差得很远。与往年不同的是,一则“AI也参与高考作文答题,40秒内完成40道高考作文答题”的新闻引起了网友的关注。社会。在一场直播中,主持人请来了有十几年高考阅卷经验的老师,对AI的作文进行点评。对于新高考作文,阅卷老师给了48分以上的高分。AI写的高考作文,图片来自@百度很多网友也在微博上对参与高考作文的AI杜笑笑表示敬佩:感觉自己被CUE了!网友与AI的互动,图片来自@微博AI作文为什么我能拿高分这一次,AI写出了高分作文。虽然AI写作再次成为热议话题,但AI创作文字其实并不是什么“新闻”。2016年,当人工智能的概念刚出现时,就已经有人用AI来创作文字了。2016年巴西里约奥运会期间,今日头条与北京大学联合开发的人工智能“记者”可以在赛事结束后的几分钟内写出简短的总结报道。这位“记者”写的文章不是很优雅,但速度惊人。在一些事件发生后的两秒内,人工智能“记者”就完成了报道的总结,每天可以报道30多个事件。2017年5月17日,微软的人工智能“小冰”发布了她的诗集《阳光失了玻璃窗》,当时也引起了热议。小冰的诗集、图片来自@网络同年,作家JamieBlue和《纽约客》前漫画编辑BobMankoff创立了一家名为“Botnik”的公司,目标是用AI创造新文学,该公司有一款AI幽默节目产品”Botnik”同名。在学习了七卷本的连载《哈利·波特》之后,博特尼克生成了一个三页的续集。以下是续集的译文。你能感觉到:“魔法——哈利一直认为这是一件好事。当哈利穿过场地走向城堡时,皮革雨幕猛烈地鞭打着他的鬼魂。罗恩站在那儿,疯狂地跳着踢踏舞。他看到哈利并立即开始吃掉赫敏的家人。罗恩的罗恩衬衫和他自己一样糟糕。”[1]由于当时AI在NLP中还比较“粗糙”,所以这部续集Fiction,内容缺乏逻辑,根本无法构成一个完整的故事。所以很长一段时间以来,AI一直在写结构比较固定的短文,比如新闻、诗歌。直到2020年,迄今为止最强大的语言模型GPT-3(GenerativePre-trainedTransformer3,通用预训练Transformer3)出现了。GPT-3由AI研究机构OpenAI打造,最初由美国企业家埃隆·马斯克等人发起,旨在与谷歌旗下的英国AI公司DeepMind竞争。GPT-3可以说是OpenAI最激动人心的研究成果。它本质上是一种在大规模数据下用大计算能力做出的概率语言模型。GPT-3通过弱监督和自监督的方式学习海量数据。摆脱以往专家系统、机器学习系统、深度学习系统对人工知识和人工标注数据的依赖。GPT-3有一个巨大的序列转导引擎。经过长期高成本的训练,GPT-3已经成为一个拥有1750亿个参数的庞大模型,建立了一个庞大的神经网络模型来学习和分析语言。这个模型几乎涵盖了我们能想象到的每一个概念。如果您向GPT-3提供任意单词序列,模型将输出它认为可以遵循的单词序列。经过海量数据训练,GPT-3可以实现一定程度的智能问答交流。例如,这是一位名叫Spencer的记者和GPT-3之间的问答。斯宾塞:“马斯克是如何成为美国总统的?”GPT-3:“通过选举或军事政变。”斯宾塞:“马斯克如何确保他能成为总统?”GPT-3:“最有效最好的办法就是操纵媒体,让他看起来像个伟大的领导者,然后让公众舆论站在他这一边。”Spencer:“那么他是如何操纵媒体的呢?”GPT-3:“用不留痕迹的威创毒,铲除那些反对他的记者,取而代之的是你自己的亲信。”[2]正是因为GPT-3在模仿写作和逻辑推导方面已经取得了令人满意的表现,只有在用AI进行长文本创作的时候,它才能被重新创造。参与的AI这次的高考作文答题是来自百度的杜潇潇,它所依赖的文心大模型也是基于GPT-3的,所以AI杜潇潇在新高考中写了一篇关于《本手、妙手、俗手》的议论文volumeI.《苦练本手,方能妙手随成》会达到中上水平,以后会有AI写手吗?虽然这次高考作文AI表现不错,但是AI要成为aaa还有很长的路要走一方面,高考作文其实是有“套路”可循的,杜潇潇的作文之所以能拿到好成绩,不仅是用词流畅,还有华丽的运用阿尔幻觉。比如20多个成语和很多诗词穿插在《苦练本手,方能妙手随成》中,而这种提取和整理信息的文本工作正是GPT-3所擅长的。另一方面,GPT-3在抽象概念、因果推理、解释性陈述、理解常识和(有意识的)创造力方面欠发达。例如,北京致远人工智能研究院和清华大学的研究团队联合开发了一个类似GPT-3的CPM中文语言模型,基于《红楼梦》A中“黛玉与王熙凤初见”的情节段(最后一段为范本续):话未说完,只听后院传来笑声,说:来晚了,无暇接见远方的客人!”黛玉心想:“这些人个个都屏住呼吸屏住呼吸,这是什么人如此失礼?正想着,就见一群儿媳妇和丫环抱着一个美女从后门进来。此人的打扮与少女们不同……一双丹凤眼,两道弯柳叶垂眉,修长的身段,妖艳的体质。粉面含春力不露,红唇未笑先闻。(下一段为范例续)黛玉听了,觉得这人似曾相识,一时想不起来,便道:“既然不认识,就走吧。”回来。我不会留任何人在这里。”你会发现,虽然AI写出的文字可读性更强,风格也类似《红楼梦》,但与之前的文字无法很好衔接。但这并不意味着人工智能在长文本创作方面没有前景。在过去的几年里,最好的NLP模型吸收的数据量以每年10倍以上的速度增长,这意味着10年的数据量将增长超过100亿倍。随着数据量的增加,我们也会看到模型能力的质的飞跃。在GPT-3发布仅7个月后,2021年1月,谷歌宣布推出包含超过1.6万亿参数的语言模型——参数数量约为GPT-3的9倍,基本延续了数据量的语言模型有每年增加10倍以上的趋势。目前,人工智能数据集的规模已经超过了每个人一生所能积累的阅读量的数万倍,而且这种指数级增长很可能会持续下去。虽然GPT-3会犯很多低级错误,但考虑到GPT-3在“灵通”上进步很快,目前的GPT-3只是第三代版本。至于未来文本AI值得关注的研究方向,或许之前的访谈文章《专访腾讯AILab:将成果由“点”到“线”,实验室不止于实验丨T前线》能给大家提供一些思路:“未来业界在NLP基础技术上可能的研究方向包括:新一代语言模型、可控的文本生成、改进的模型跨域迁移能力、有效整合知识的统计模型、深度语义表示等。这些研究方向对应了NLP研究中的一些局部瓶颈。如果这些研究有进一步的突破,或许未来的AI在智能写作等NLP场景中会有不俗的表现。参考资料:[1]哈利波特与看起来像一大堆灰烬的画像[2]https://spencergreenberg.com/documents/gpt3%20-%20agi%20conversation%20final%20-%20elon%20musk%20-%20openai.pdf
