从事人工智能研究的人都清楚,数据在人工智能的发展中起着至关重要的作用。传统观点认为,大量数据支撑着前沿人工智能的发展,大数据一直被视为构建成功机器学习项目的关键。作为深度学习的引擎,大数据和大模型已经成功运行了15年。如今,预训练大型模型已经成为各公司构建AI基础设施的利器。业界出现了各种由大数据构建的大模型,例如:SwitchTransformer谷歌于2021年1月11日提出,声称参数数量从GPT-3的1750亿提高到1.6万亿。SwitchTransformer基于稀疏激活的专家模型(专家混合)。论文中提到,在相同的计算资源下,训练速度可以达到T5(Text-To-TextTransferTransformer)模型的4-7倍。MT-NLG2021年底,英伟达和微软联合发布了MT-NLG,包含5300亿个参数,号称是最大最强大的语言生成预训练模型。启蒙2.02021年6月,北京致远研究院发布启蒙2.0,参数规模1.75万亿,是GPT-3的10倍,超越GoogleSwitchTransformer的1.6万亿参数记录。“封神榜”2021年11月,在深圳IDEA大会上,粤港澳大湾区数字经济研究院(“IDEA”)理事长沉向阳正式宣布“封神榜”大型模型开启开源项目,涵盖五个系列亿级自然语言预训练大模型,包括最大的开源中文BERT大模型“二郎神”系列。但值得注意的是,在某些场景下,大数据并不适用,“小数据”才是更好的解决方案。1、未来人工智能将从大数据转向小数据。虽然业界在大数据和大模型方面取得了很大的成就,但这种大规模的方法并不适用于数据集不足的新兴或传统行业。在传统行业,基于公开数据的预训练大型模型几乎没有用武之地。“庞大的搜索数据和经济数据对于检测部件缺陷毫无用处,对医疗记录也没有太大帮助。”吴恩达教授说。更难的是,与互联网公司可以获得海量用户数据不同,传统公司没有办法收集海量特定数据来支持AI训练。例如,在汽车制造行业,由于精益6-sigma管理技术的广泛应用,大部分零部件制造商和一级供应商都尽量保证每百万批次产品中不合格品不超过4个。因此,制造商缺乏不合格产品的样本数据,很难训练出性能良好的视觉检测模型用于产品质量检测。根据最近的MAPI调查,58%的受访者认为部署AI解决方案的主要困难是缺乏数据源。正如吴恩达教授所说:“过去十年,人工智能最大的变革是深度学习,未来十年,我认为它会转向以数据为中心。随着神经网络架构的成熟,对很多人来说实际应用中,瓶颈将存在于“如何获取和开发所需数据”。随着各国数据和隐私安全法规的建立,对人工智能技术的监管趋严,人工智能的大数据红利期已经到来。永远消失了。根据Gartner的报告,到2025年,70%的组织将被迫将他们的关注点从大数据转移到小数据和泛数据,为分析提供更多的上下文——并减少人工智能对数据的需求。但事实并非如此意味着AI小数据的发展会受到阻碍。相反,在小数据时代,AI也大有可为。吴恩达教授认为,基于融合学习、增强学习、知识迁移等方法,小数据可以也起到了很大的作用。人工智能的未来趋势之一是从大数据向小数据过渡。2、小数据如何驱动AI?需要注意的是,小数据的“小”不仅仅意味着数据量少,还需要高质量的数据,这一点尤为重要。小数据是指使用符合要求的数据类型建立模型,从而产生业务洞察,实现自动化决策。我们经常看到一些人对AI的期望值过高,只收集少量的图片数据,期望得到一个高质量的模型。在实际部署的时候,就是找出数据中最适合做模型构建的部分,输出正确的内容。对此,吴恩达教授举了一个例子:一个训练有素的机器学习系统在大多数数据集上表现良好,但它只在数据的一个子集上产生偏差。这个时候想要改变整个神经网络架构来提升这个子集的性能是相当困难的。但是,如果只对数据的一个子集进行设计,那么这个问题就可以更有针对性地解决。例如,有一个语音识别系统在背景中有汽车噪音时表现不佳。知道了这一点,就有可能收集更多的数据,并不是所有的工作都必须收集更多的数据,这可能会非常昂贵且处理起来非常耗时。又如,智能手机存在多种不同类型的缺陷,可能是划痕、凹痕、坑痕、材料变色或其他类型的瑕疵。如果经过训练的模型通常擅长检测缺陷,但在凹坑标记方面表现不佳,那么合成数据生成可以更具体地针对这个问题,只为凹坑类别生成更多数据。事实上,小数据并不是一个新话题。在机器学习领域,处理小数据的方法越来越多。少样本学习通过少样本学习技术为机器学习模型提供少量的训练数据,适合在模型处于全监督学习状态且训练数据不足时使用。Few-shot学习技术经常被应用在计算机视觉领域。在计算机视觉中,模型可能不需要很多示例来识别对象。例如,有用于解锁智能手机的面部识别算法不需要数千张自己的照片来解锁。知识图谱属于二级数据集,因为知识图谱是对原始大数据进行筛选形成的。知识图谱由一组数据点或标签组成,这些数据点或标签具有明确的含义并描述了特定领域。例如,知识图谱可能由一系列带有著名女演员名字的数据点组成,合作过的女演员之间由线(或边)相连。知识图谱是一种非常有用的工具,可以以高度可解释和可重用的方式组织知识。当一个机器学习模型被用作训练另一个模型以帮助该模型完成相关任务的起点时,使用迁移学习技术。从本质上讲,它是将知识从一个模型转移到另一个模型。以原始模型为起点,使用额外的数据进一步训练模型,以开发模型处理新任务的能力。如果新任务不需要,也可以删除原始模型的某些部分。迁移学习技术在需要大量计算能力和数据的领域特别有效,例如自然语言处理和计算机视觉。应用迁移学习技术可以减少任务所需的工作量和时间。自监督学习自监督学习的原理是让模型从现有数据中收集监督信号。模型使用现有数据来预测未观察到或隐藏的数据。例如,在自然语言处理中,数据科学家可能会将缺少单词的句子输入模型,并要求模型预测缺少的单词。从未隐藏的单词中获得足够的上下文线索后,模型将学习识别句子中的隐藏单词。合成数据当给定数据集中存在现有数据无法填补的空白时,可以利用合成数据。一个常见的例子是面部识别模型。人脸识别模型需要覆盖所有人类肤色的人脸图像数据,但问题是深色人脸的照片比浅色人脸的照片少。数据科学家无需创建难以识别深色面孔的模型,而是可以人为地创建深色面孔数据以实现其表示形式的平等。但机器学习专家必须在现实世界中更彻底地测试这些模型,并在计算机生成的数据集不足时添加额外的训练数据。3、小数据的大潜力如今,小数据的潜力正被业界所看重。2021年9月,美国网络安全与新兴技术署(CSET)发布的《小数据人工智能的巨大潜力》报告指出,长期被忽视的小数据(SmallData)对人工智能具有不可估量的潜力!第一,缩短大小实体之间的AI能力差距。由于不同机构收集、存储和处理数据的能力存在巨大差异,人工智能领域的“拥有者”(例如大型科技公司)和“没有者”之间的差距正在扩大。利用小数据构建AI系统,可以大大降低中小企业进入AI的门槛,减少传统企业项目的研发时间和成本,将成为数以万计的商业化的重要突破口。项目。二是促进数据匮乏地区发展。对于许多亟待解决的问题,例如为没有电子健康记录的人构建预测疾病风险的算法,或预测活火山突然喷发的可能性,几乎没有或根本没有可用数据。小数据方法提供了一种处理丢失或稀缺数据的原则性方法。它可以利用标记和未标记的数据从相关问题中转移知识。小数据还可以从少量数据点创建更多数据点,依赖于相关领域的先验知识,或者通过构建模拟或编码结构假设来开始新领域的冒险。三是避免脏数据问题。小数据方法可以使与“脏数据”作斗争的大型机构受益。数不清的“脏数据”需要大量的人力物力进行数据清洗、标注和排序才能“净化”,而小数据方法中的数据标注方法通过自动生成标签更容易处理大量未标注数据.迁移学习、贝叶斯方法或人工数据方法可以分别基于相关数据集、结构化模型和合成数据,通过减少需要清理的数据量来显着减少脏数据问题的规模。第四,减少收集个人资料。世界各国相继出台个人信息保护政策法规。使用小数据方法可以大大减少个人数据的收集。通过人工合成数据或使用模拟训练算法,更容易使用机器学习,从而消除对大量收集、使用或披露消费者数据的担忧。4.结语人工智能依赖海量数据,数据是不可或缺的战略资源,但小数据的潜力不容小觑,尤其是在人工智能应用的下一个十年,是时候从大数据转向小数据了,高质量数据。
