当前位置: 首页 > 网络应用技术

是AI还是数据的中心?

时间:2023-03-08 16:17:46 网络应用技术

  通用AI课程将通过参数优化引入许多方法来提高机器学习模型的准确性。但是,这些方法通常有一定的局限性。这是因为我们经常忽略现代机器学习的非常重要的核心-DATA。如果我们没有处理培训数据,它将浪费数百小时来调整由A训练的模型低质量数据,模型的准确性将很容易低于预期。多太多的关系。我们如何避免此类问题?

  实际上,看上去粗略地看,每个AI项目都由两个部分组成:模型和数据。对于代码部分,我们始终可以使用第三方库来提高代码的质量,但没有人总是有告诉我们如何完全提高数据的质量。这是本文想介绍的新想法:AI以数据为中心。数据以什么为中心AI?数据的数量和质量中的哪个是更高的?我发现了一个好的数据集?这些问题将在本文中讨论。

  由于AI由两个部分组成:模型和数据,因此我们可以考虑两个基本思想来指导我们的机器学习:

  实际上,以数据为中心的AI(以数据为中心的AI)的概念是Andrew Ng.wu Enda的发明提出了一个实时的问答,并在油管上提前回答,特别是解释了什么是数据中心AI。

  他提出,最近发表的学术论文中有99%正在谈论模型,只有1%是以数据为中心的。一个单词尤其值得注意:“不要在模型优化中花费太多的头脑”(您模型架构足够好。

  Wu Enda为什么会这么说?诸如Resnet,VGG,EfficityNet等学术界的各种智慧晶体已经使我们现在可以实现的模型架构非常强大。试图站在这些巨人的肩膀上,以改善他们的工作只能实现花钱的效果。

  但是,以模型为中心的思维确实更适合那些喜欢研究理论的人。他们可以将手知识直接应用于特定方案以提高模型性能。此外,数据中心的想法听起来并不巧合。谁想每天标记数据?

  但是,事实证明,我们可以通过以数据为中心的方法来实现我们能做的大多数性能改进。

  如图

  即使我们对钢缺陷了解不多,我们也可以看到数字模型性能的显着改善。我们可以看到,基线的改善不是零或接近零,而且这种方法通常需要数百小时的时间从业者。

  总而言之,我们可以获得一个非常重要的课程:不要尝试与博士学位与房屋进行比较。在我们要改进模型之前,我们必须首先确保手头数据的质量首先是级别。

  为了追求数据数,通常的方法是收集尽可能多的数据并将其全部扔给神经网络以学习映射关系。但是,使用数据集并不意味着其数据量是大。我们可以参考数据集中的数据集,以共享网站Kaggle上数据集的大小。图标如下:

  图2 -DATA设置大小分布在Kaggle上的数据集(源的作者)上

  我们可以看到大多数数据集都没有太多数据。在数据中心方法中,数据集的大小并不重要。当然,我们不能使用三张图片来训练神经网络,但是我们的重点是质量数量。即使我们没有数百张图片,也没关系,现有的数据质量和标签精度至关重要。我们可以参考以下示例。以下数字是标签人员在两个橘子位置的标签标记方式的两种不同。

  如图

  只要将其倒入与不一致性不一致的数据中,降低模型的准确性很容易。如果我们想追求数据的质量,我们必须具有严格而统一的标记规则。当项目中有许多标签时。

  但是,即使可以保证数据的质量,我们需要多少数据?这个问题难以回答。大多数算法在其文档中指示最低建议数据。例如,Yolov5建议至少1,500张图片我试图用比这更少的数据取得良好的结果,但是如果有更多的培训样本,模型的准确性肯定会提高。

  总而言之,可以添加大量数据,但是数据量绝对不需要。只要小数据集可以具有更高的数据质量。

  现在,让我们看一下可以免费获得高质量数据集的两个平台。

  Kaggle有大量的数据集,包括图表和图像。在同一时间,Kaggle经常举办各种机器学习比赛,包括现金奖励,这非常适合想要展示自己的技能的学生。非常出名的是,它没有针对国内网络进行优化,并且下载数据集并不容易。

  图4 -Kaggle数据集主页

  也许您从未听说过这个平台,但是它的出现确实为算法开发人员带来了很大的帮助,无论您在国内还是国外。

  在gas.graviti.cn/open-datasets上on gas.graviti.cn/open-datasets(gas.graviti.cn/open-datasets),用户可以查找,应用程序场景,筛选类型筛查,建议筛查,建议,更新时间和热量筛选,并在同一时间轻松找到所需的data.set.set.set.set.set。如果用户需要下载,他们可以在“数据集详细信息”页面上在线检查标签情况和标签分布以掌握数据详细信息。

  但是,如果您想将数据集下载到本地,Gebin Titanium用户会提供高速和稳定的下载服务。将全球资源提供给家庭镜子,无VPN访问,完整的带宽下载。官方网站,网格钛速度至少提高100%。

  这只是国内AI开发人员中的福音!

  实际上,网格钛平台上的数据集仍在增长。用户可以自发上传一些开源数据集,他们的团队会定期添加新的高质量公共数据集。- 在一个 - 单击直观的查看数据集内容:

  图6-网格钛平台上的Nuscenes数据集

  不仅如此,当您需要一些卸载的特定数据集时,还可以添加Ghelbito社区(微信或不和谐)。网格钛的反馈渠道为问题和需求提供了反馈渠道,这很方便 -有针对性的响应,遵循-up并解决用户的需求。

  以上是以数据为中心的AI.simply的基本介绍,数据中心AI更关心数据的质量,而不是数量。构建高质量的机器学习模型,您必须需要高质量的数据集。对于联系数据集平台,Kaggle是一个很好的开始。但是,如果您对计算机视觉等特定字段感兴趣,并且如果您想访问数据集以快速有效的方式,您必须尝试免费,轻松使用 - 使用网格钛开放数据集平台。

  作者:Dario Radecic,中等高质量的博客作者

  汇编:Songxian