本文转载自公众号“阅读术”(ID:AI_Discovery)机器学习似乎已经成为每个人都在追求的远大目标,80%以上的公司都在做至少一个AI项目。来源:unsplash在开始之前,最好问自己以下三个问题:“这个机器学习模型有多准确?”加载需要多长时间以及它的执行或推出情况如何,他们想要一种方法来衡量总体成本与性能。但不幸的是,上述问题的答案并不能解决问题。他们甚至具有误导性。模型训练只是冰山一角。获取合适的数据集并清洗、存储、聚合、标记、构建可靠的数据流和基础设施管道需要巨大的成本,但大多数用户和AI/ML公司都忽略了这一点。根据最近的研究,公司将超过80%的时间花在数据准备和工程操作的AI/ML项目上。换句话说,如果将大部分精力用于构建和训练模型,则总工程工作量和成本可能比预期高出五倍。此外,机器学习模糊了用户和软件开发人员之间的界限。AIaaS或MLaaS已经开始出现。随着数据的增长,云中的模型不断改进。正因为如此,MLaaS的业务比SaaS的业务更具挑战性。资料来源:HuangBastiane机器模型从训练数据中学习,因此如果没有高质量的数据,模型将不会表现良好。在大多数情况下,用户不知道生成或注释适当数据集的最佳实践。当系统表现不佳时,用户通常会责怪模型。因此,AI/ML公司通常会花费大量时间和资源来培训和与用户合作以确保数据质量,这成为AI公司与其客户之间的共同责任。例如,为了在生产线上训练缺陷检测模型,计算机视觉公司需要与客户一起将摄像头安装在正确的角度和位置,检查分辨率和帧率,并确保每个场景都有足够的正面和负面训练样品。有时需要人类来操作机器人或车辆,因此使用机器人技术或自动驾驶汽车应用程序收集数据更加耗时且成本更高。即使参加了培训课程并阅读了所有用户手册和指南,您仍然无法完全控制用户生成的数据。一家机器视觉相机公司告诉我,他们的工程师手动验证所有数据以确保输入完整。来源:unsplash所有这些经常被忽视的额外培训、人工检查、数据清理和标记任务都会给AI公司带来巨大的管理费用。这就是为什么构建更具可扩展性的AI/ML项目很重要。那么如何解决这个问题呢?1.可扩展性是关键。确定大量客户愿意购买并使用相同模型架构解决的正确用例。最后,您需要在没有标准产品的情况下为不同的公司构建和训练不同的模型。2.尽可能提供自助服务。尽可能自动化培训和数据管道,以提高运营效率并减少对体力劳动的依赖。与内部工具或自动化相比,公司更重视开放客户可见的功能,但前者回报迅速,您需要确保为内部流程自动化分配足够的资源。3.最后,确定并跟踪成本,尤其是隐性成本。工程师花多少时间清理、过滤或聚合数据?他们花了多少时间来确保第三方正确完成注释?他们多久帮助客户正确设置环境和收集数据?其中有多少可以自动化或外包?练级之路可能艰难而漫长,但有些问题是迟早要面对的。
