当前位置: 首页 > 科技观察

最快2026年?全球优质语言数据“存量”告急!网友:多虑了

时间:2023-03-18 00:56:07 科技观察

作为人工智能的三要素之一,数据有着举足轻重的作用。但是你有没有想过:如果有一天,世界上所有的数据都用完了,会发生什么?其实问这个问题的人,绝对没有精神问题,因为那一天——可能真的要来了!!!近日,arXiv上发表了研究员PabloVillalobos等人的一篇题为《我们会用完数据吗?机器学习中数据集缩放的局限性分析》的论文。根据之前对数据集大小趋势的分析,他们预测了语言和视觉领域数据集大小的增长,估计了未来几十年可用的未标记数据总量的趋势。他们的研究表明,高质量的语言数据最早将在2026年枯竭!机器学习的发展速度也会因此减慢。这并不乐观。双管齐下,结果不容乐观。本论文的研究团队由11名研究人员和3名顾问组成。提供建议。Chinchilla是DeepMind研究人员提出的一种新的预测计算优化模型。事实上,此前在对龙猫进行实验时,就有研究人员提出“训练数据很快就会成为扩展大型语言模型的瓶颈”。因此,他们分析了用于自然语言处理和计算机视觉的机器学习的数据集大小的增长,并使用两种方法进行了推断:使用历史增长率,以及为未来预测的计算预算估算计算最佳数据集大小。此前,他们一直在收集有关机器学习输入趋势的数据,包括一些训练数据,并通过估计未来几十年互联网上可用的未标记数据的总量来调查数据使用增长情况。由于历史预测趋势可能会被过去十年计算量的异常增长所“误导”,研究团队还利用Chinchillascalinglaw来预估未来几年的数据集规模,提高计算的准确性结果。最后,研究人员使用一系列概率模型来估计未来几年英语语言和图像数据的总存量,并将训练数据集大小和总数据存量的预测进行比较,结果如下图所示.这意味着数据集的增长速度将比数据存量快得多。因此,如果目前的趋势继续下去,数据库存的枯竭将是不可避免的。下表显示了预测曲线每个交叉点的耗尽年数中位数。高质量语言数据存量最早可能在2026年耗尽。相比之下,低质量语言数据和图像数据的情况略好一些:前者将在2030-2050年耗尽,后者将在2030-2030年耗尽。2060。在论文的最后,研究团队得出结论,如果数据效率没有大幅提升或出现新的数据源,那么目前依赖于庞大数据集的机器学习模型的增长趋势很可能会放缓。网友:担心是多余的,让高效零了解一下吧。不过,在这篇文章的评论区,大部分网友都认为作者是毫无根据的。在Reddit上,一位名叫ktpr的网友表示:“自监督学习有什么问题吗?如果任务指定得好,甚至可以组合起来扩大数据集的规模。”一个叫lostmsn的网友更是不客气。他直言:“我连EfficientZero都不知道?我觉得作者严重落伍了。”EfficientZero是一种可以高效采样的强化学习算法,由清华大学高阳博士提出。在有限数据的情况下,EfficientZero在一定程度上解决了强化学习的性能问题,并在通用算法测试基准AtariGame上得到了验证。在本文作者团队的博客上,连他们自己都坦言:“我们所有的结论都是基于不切实际的假设,即当前机器学习数据使用和生产的趋势将持续下去,数据效率不会提高。重大改进。”“一个更可靠的模型应该考虑到机器学习数据效率的提高、合成数据的使用以及其他算法和经济因素。”“因此,作为一个实际问题,这个分析有严重的局限性,模型的不确定性非常高。”“然而,总的来说,由于缺乏训练数据,我们仍然认为到2040年机器学习模型的扩展将显着放缓的可能性约为20%。”