把毛轩、鲁迅全集喂给AI后,高考作文写得太好了。高考没多久,AI就来“挑战事物”了。这不,有一个AI,看完毛选鲁迅全集,挥笔写了几篇高考作文。结果……没事了?直接看文章:看字里行间的青春活力,完全看不出是AI写的!也能紧贴时事,“民族伟大复兴”等热词拿来游刃有余。引用经典没问题:一句“实践是检验真理的唯一标准”,立马让文章变得高大上。一眼看去,整篇文章都是点点滴滴。人们不禁要问:人工智能能写论文吗?吃瓜群众也很好奇:这样的文章能打多少分?既然如此,那我们不如来做个考试老师,看看这个AI能拿多少分。考场作文设置的“模板”武器首先摆在AI面前的是2021年国考A题,主题是“可能与承诺”,具体出题如下:主题让人说“高的”。在标题没有提到“青春”二字的情况下,AI依然可以找到这样的切入点。这很有趣吗?这是非常愚蠢的。直接抄了开头题目里的内容,叫“点题”。就连并行这种我们写字的必备法宝,也可以游刃有余。三段并排,情感层层递进,也能凑齐字数。而作者@turing的猫介绍,这个并列句型是AI直接生成的,没有任何二次调整。这可能是因为AI在训练时“记住”了这个语法结构并使用了它。再看看结局,这也是高考作文的亮点。AI还是熟悉我们的套路,一个pass提升升华,批卷的老师不好意思给低分(没有)。从这个角度来看,AI真的能在考场上写出令人满意的作文吗?不要说得太早,因为在接下来的两组题中,它的表现有点差强人意。首先要吐槽的是,它每次写论文,都会用抄题目的方式来补开头。其次,虽然运用了金句技巧,马克思主义理论和李白的诗词用得很好,但在文章的逻辑处理上还是不太好。比如“你有没有余生的命”,显然不是中国人的逻辑。缩写不讲人类语言。而它写的内容总是徘徊在金句和废话之间。就像下面这一段,每一句都还好,但是连成一段之后,怎么就有点废话了呢?另外,不知道是不是因为看了《鲁迅全集》,AI对我们现在的时代背景好像有点迷糊。这一段中的“三十年过去了”,也是一个有些混乱的时间概念。有网友总结了自己的感受:挑战鲁迅的话题。本着看热闹没什么大不了的原则,光看已有案例是不够的。当然,我们必须尝试一下,看看它有多好。既然是读完《鲁迅全集》的AI,就让它根据鲁迅的名言写一篇文章吧。愿中国青年摆脱空调,上去就好,不必听那些自暴自弃的话。能做事的人做事,能说事的人说事。这段话想必大家都不陌生,那么让AI根据这个题目写一篇作文,画风会是怎样的呢?按照它的套路,标题是抄在章节开头的,那我们直接看第二段吧。AI直接掀起了年轻人自信的话题。看来《鲁迅全集》没有白看,对题目的理解还是很到位的。以下内容对标题进行更直白的解释,告诫年轻人要努力!斗争!见状,直接喊着不骂了……接下来也是常规操作。文末回归现实生活,呼吁年轻人着眼当下,才能拥有更美好的未来。同时,还增加了科技创新和大国崛起的重点。由此可见,AI写作在控制题材上可以说是轻而易举。考虑到很多真正的高考作文题都是先问再答,所以我们也尝试给AI出一道题,会发生什么。拿到文献后如何提高?这样的命题之后,AI自然是说了句套话。这第一段看似很有哲理,但本质上只是一个汽车轮子。此类问题在其他生成的文章中也很常见,会出现错别字、语言问题等小问题。同时,我们也发现它似乎经不起一些奇怪的题目……把网上发的一个奇怪的作文题目给AI后,直接写出了意识流。这只是第一段,后面的内容还有红气球、子弹、龙牙、警察等等,完全是一头雾水。不仅是怪题,说到“古人”这个话题,AI还会想出一两句古怪的文言文:果然现代题材的高考作文更适合AI玩。网友总结:这是一个垃圾文章生成器。5个模块,看题答题“一站式”以上偶有“超常发挥”,平均分挣扎在及格线以上的文章,来自一个名为EssayKiller的AI写作框架,本质上是一个多模块异构深度神经网络。按照模型作者@turing的猫的说法,这篇AI生成文章之所以有点“捉襟见肘”,也是因为使用的模型不是最先进的。由于资金不足,更好的模型没有开源,所以GPT-2只能用来生成文本。如果能用GPT-3和华为盘古,效果肯定比现在好。据了解,EssayKiller基于OpenCV开发,参数量17亿。从结构上看,这个AI框架主要包括5个部分:输入、识别网络、语言网络、判断网络和输出。相当于我们平时的“作文5步走”:拿到试卷、看题、打草稿、查错、写答题纸。其中,阅读题、起草、查错模块将被抽出单独训练,各司其职。在问题部分,EssayKiller首先使用了OpenCV的EAST文本检测器,它可以以每秒13帧的速度扫描任意方向和大小的720p图像文本,并检测其中的文本。然后在OCR模型中使用CRNN来识别这些字符。比如将上图中的文字转换成可以直接输入模型的文字信息:“三写70分……”至于起草部分,分为阅读理解和文字联想两部分,分别由BERT和GPT-2来完成。BERT会将接收到的句子信息进行拆分打散,提取关键词,将这些“必须出现在文本中”的关键词交给GPT-2;收到关键信息GPT-2后,就可以开始根据要求“大做文章”了,每一句话都紧扣关键词,无时无刻不在“指点迷津”。但是GPT-2生成的文章不符合高考作文标准。为了让这些句子看起来流畅地进入段落,你必须筛选出一批真正没有意义的坏句子,并检查句子是否存在拼写错误、机器翻译等问题。这是错误检查部分。EssayKiller直接调用了百度模型DNN的API。主要原理是分析句子中的单词,判断它们是否在正确的位置。完成这三个关键步骤后,就可以正式打成答卷格式,并由手写机器人输出(相关模型也开源)。看着不错,有网友迫不及待用它来写小作文了:停!按照@turing的猫的说法,不想让任何人用EssayKiller写作业,所以没有开源相关的参数设置,colab的调用次数也有严格的限制。如果有违规行为,整个开源项目可能会被关闭,Colab将无法在线体验。它是如何“消化”的?@图灵的猫介绍,为了让AI模型写出这样效果的作文,在“语言生成模块”的训练集中,毛轩、鲁迅全集等作品占比超过10%.模型的其他训练材料主要来自开源的散文数据集、高考作文数据集等,那么训练出来的模型效果是否如预期呢?不少网友表示,感觉AI还是“读了一部分”:而对于作者@turing的猫来说,生成的作文质量确实“比我预想的要好”。但这并不代表AI已经能写出100%像样的高考作文。毕竟最后呈现的几篇高考作文,都是经过语言生成模型、机器打分+人工筛选后呈现给读者的。作文中出现的排比等高级修辞技巧,只能说明训练语料中包含此类修辞技巧,AI模型在学习过程中“记住”了它们,并不代表已经学会了这些技巧。也就是说,这次AI模型的效果确实超乎预期,但并不代表它真正“消化”了语料库。那么,这个AI模型接下来还会尝试什么?@图灵的猫说下一个目标是“科幻小说”:有时间的话我会把大刘、阿西莫夫、亚瑟克拉克等科幻作家的作品加入训练集,让AI模型尝试写科幻小说。好吧,人工智能写作开始有点像赛博朋克了。欣赏毛轩鲁迅文集开源AI模型:https://github.com/EssayKillerBrain/EssayKiller_V2Colab版在线生成器:https://colab.research.google.com/github/EssayKillerBrain/EssayKiller_V2/blob/master/colab_online.ipynb参考视频(已授权):https://www.bilibili.com/video/BV1aw411f7G9
