当前位置: 首页 > 科技观察

2021年机器学习的下一步是什么?

时间:2023-03-15 15:26:20 科技观察

啊,2020年!从全球医疗保健问题到技术采用和再利用方式的革命已经过去了一年。每年年底,停下来思考一下机器学习(ML)的趋势总是很有趣的,这些趋势出现了惊人的增长,尤其是在工具、资源和信息可访问性方面。作为PerceptiLabs可视化建模工具的开发人员,我们将始终关注这些趋势,并在继续增强我们工具的功能时询问下一步是什么。这样做意味着查看水晶球或黑匣子(取决于所选择的工具)以了解ML的未来。在最近进行此练习后,以下是我们对2021年ML的三大预测(倒计时)。尖端模型的可用性排名第三的是可用尖端模型的增长。随着ML的广泛采用,我们看到了开放访问模型的并行趋势。一个促成因素是大型ML公司不断提高模型性能的标准。他们之所以能够做到这一点,是因为他们拥有庞大而全面的数据集,可以在专门的ML从业者团队的支持下训练模型。许多中小型公司和组织希望利用这些高性能模型,但可能无法从头开始构建它们。因此,许多人正在转向迁移学习,以便他们可以在经过大量培训后建立甚??至重新利用这些模型。相反,许多确实有资源开发此类模型的大型企业已经意识到,他们仍然可以从外部对其模型的贡献中获益。学生、爱好者和其他试验ML的团体也使用开源和公共模型,其中一些人使用这些模型或为这些模型做出贡献以促进他们的职业发展。更好的ML支持工具在2021年顶级ML预测中排名第二的是对ML从业者的更全面的工具支持。仅仅生成一个可以做出相当好的预测的ML模型已经不够了。今天的机器学习从业者要求他们的模型是可解释的,他们需要理解他们为什么要做出预测,也就是说,如果他们愿意,他们可以进入众所周知的黑匣子,并决定一个模型是否应该投入生产。这在经常根据社会因素(包括道德、社会正义和公平)审查预测的企业中尤为重要。模型卡片的使用已经成为模型开发的有力工具,我们预计它们将在2021年变得更加普遍。本质上,这些卡片(实际上更像是设计文档)正式描述了模型的各个方面。它们的内容可以包括:详细概述:概述模型的用途。规范:层/神经网络、输入和输出类型。物流:作者、日期、其他文件的链接、如何引用模型、许可证。预期用途:适用用途、领域限制等。限制和注意事项:速度/准确性限制、道德和隐私问题、潜在偏见等。培训:数据源、测试环境和设备等。目标和实际绩效指标:预期准确性与实际准确性等指标。有关模型卡片的一些很好的示例,请查看MediaPipe中的这个集合。另一个关键工具是可视化。在设计、训练甚至审计过程中可视化模型的能力本身就是无价的。这就是PerceptiLabs的亮点,因为它为TensorFlow提供了GUI和可视化API。这些方面补充了模型卡,因为团队成员可以根据模型卡上指定的内容不断评估模型。如需更多信息,请查看TensorFlow概述以及PerceptiLabs如何让它变得更容易。在PerceptiLabs,我们还着眼于支持解释的可视化功能。很快我们将添加新的库,让您不仅可以看到正在使用的数据,还可以深入了解数据的哪一部分(例如图像的一部分、CSV数据的列等)。对预测的影响最大。边缘机器学习最后,您期待已久的时刻是我们对2021年的ML预测(鼓声):边缘机器学习。我们看到了边缘推理的增长趋势,我们预计这一领域将在2021年显着增长。这有很多因素,包括物联网的发展和对远程工作设备的依赖性增加。然而,要了解这一趋势,最好将边缘推理与“面向云的ML”进行比较和对比,后者在面向企业的设备和消费类设备(如GoogleMini)中均有体现。支持云的ML可能会让人联想到可以访问互联网的微型设备的图像,这些设备可以收集数据,将其发送到云端进行推理,并且在某些情况下在设备上接收数据(例如执行某些任务)。一些操作)。这样的部署在很多情况下都是必要的(例如银行检测欺诈),并且非常适合不需要长时间延迟、需要第三方云托管等的情况。也就是说,5G的发展可能会造成延迟已成为过去。然而,边缘设备正在迅速获得在边缘执行推理所需的处理能力。以谷歌的Coral为例,它有一个板载张量处理单元(TPU),可以处理大量物联网用例(例如分析图像和语音)。通过将这些技术封装在一个小尺寸中,现在可以在不需要互联网连接和云后端的情况下进行推理。此设置还通过将所有收集的数据保存在设备上来增加安全性,这在设备上得到了进一步增强。从技术角度来看,此类部署通常需要较小的ML模型,这些模型可以快速传输并适合有限的嵌入式设备存储。一种流行的解决方案是在模型中使用量化(降低数值精度)来减小模型的大小。当然,确定正确的量化数量必须与不可避免的准确性损失相平衡。有关更多信息,请查看我们的CoralSignLanguage教程,该教程演示了在PerceptiLabs中导出模型期间使用全整数量化将权重从32位浮点数减少到8位定点值,以及如何将模型加载到珊瑚开发板。结论2020年是唱片业的一年,但它将被铭记为一个即使最艰难的挑战也被克服的时代。我们认为这不仅适用于全球事件,也适用于ML工具、资源和信息的演变和民主化。虽然我们的主题是2020年,但我们今年的主要预测之一是MLOps的增长。MLOps可以在不同级别使用,如MLOps:仅用于机器学习的操作中所述。总的来说,这是反思的一年,我们期待看到我们的ML预测在新的一年里实现。