AI的胃口太大了,人类的语料库数据已经不够用了。Epoch团队的一篇新论文显示,AI将在5年内用完高质量的语料库。要知道,这是考虑到人类语言数据增长率的预测结果。也就是说,即使人类在过去几年写的新论文、新代码全部喂给AI,也是不够的。如果这样发展下去,依赖高质量数据提升水平的大语言模型很快就会遇到瓶颈。有网友坐不住了:这也太离谱了。人类不需要阅读互联网上的所有内容来有效地训练自己。我们需要更好的模型,而不是更多的数据。有网友调侃说,还不如让AI吃它吐出来的东西:AI自己生成的文本可以作为低质量数据喂给AI。让我们看看,还剩下多少人类数据?文本和图像数据“库存”呢?论文主要预测两类数据,文本和图像。第一个是文本数据。数据质量通常参差不齐,作者根据现有大型模型采用的数据类型以及其他数据,将可用的文本数据分为低质量和高质量部分。高质量语料,指Pile、PaLM、MassiveText等大型语言模型使用的训练数据集,包括维基百科、新闻、GitHub上的代码、出版书籍等。低质量语料来自社交媒体上的推文,如如Reddit,以及非官方创作的同人小说等。据统计,优质语言数据存量仅剩约4.6×10^12~1.7×10^13个词,不足一个数量级数量级大于当前最大的文本数据集。结合增长率,论文预测高质量的文本数据会在2023-2027年被AI耗尽,估计节点在2026年左右。好像有点快。。。当然可以加上低质量的文本数据来拯救。据统计,文本数据整体存量还剩7×10^13~7×10^16个词,比最大数据集大1.5~4.5个数量级。如果对数据质量要求不高,那么AI会用完2030到2050之间的所有文本数据。再看图像数据,这里的论文没有区分图像质量。目前最大的图像数据集有3×10^9图像。据统计,目前的图片总数约为8.11×10^12~2.3×10^13,比最大的图像数据集大3~4个数量级。论文预测,AI将在2030年到2070年间用完这些图片。显然,大语言模型面临比图像模型更紧张的“数据缺失”局面。那么这个结论是怎么得来的呢?论文计算了网民日均发表文章数,从两个角度分析了文本图像数据生成的效率和训练数据集的增长情况。值得注意的是,并非论文中的所有统计数据都是标记数据。考虑到无监督学习比较火,未标注数据也包括在内。以文本数据为例,大部分数据将来自于社交平台、博客和论坛。为了估计文本数据产生的速度,需要考虑三个因素,即总人口数、互联网普及率和互联网用户平均产生的数据量。例如,这是根据历史人口数据和网民数量估算的未来人口和网民增长趋势:结合用户平均产生的数据量,可以计算出数据产生率。(由于复杂的地域和时间变化,论文对用户平均产生数据量的计算方法进行了简化。)按照该方法计算,语言数据的增长率约为7%,但该增长率将随着时间的推移逐渐下降。据估计,到2100年,我们语言数据的增长率将降低到1%。类似的方法也被用于分析图像数据,目前的增长率约为8%。不过,到2100年,图像数据的增长速度也将放缓至1%左右。论文认为,如果数据增长率没有明显提升,或者出现新的数据源,无论是图像还是在高质量数据上训练的大文本模型,都可能在某个阶段迎来瓶颈期。有网友调侃说,未来可能会发生类似科幻故事的事情:人类为了训练AI,启动了大规模的文本生成项目,大家拼命为AI写东西。他称之为“AI教育”:我们每年向AI发送14万到260万个单词的文本数据,这听起来比人类作为电池还酷?你怎么认为?论文地址:https://arxiv.org/abs/2211.04325参考链接:https://twitter.com/emollick/status/1605756428941246466
