【.com快译】神话机器学习不再局限于科幻电影——从Siri和Alexa语音识别到Facebook的自动照片标记到Amazon和Spotify产品推荐,机器学习技术正在开始越来越融入日常生活。目前,许多企业都渴望使用机器学习算法来提高网络效率。与任何技术一样,如果实施不当,机器学习有可能对网络造成严重危害。因此,在采用这项技术之前,企业应该了解机器学习可能带来的问题,并尽量避免。在今天的文章中,瞻博网络安全情报软件公司的RomanSinayev列举了机器学习领域的以下六大误区。忽略意外变量行为一些计算机认为重要的事情会被人类立即判断为毫无价值。因此,在部署机器学习算法之前,尽可能多地考虑相关变量和潜在结果非常重要。以模型训练为例,假设我们需要在算法区帮助图片中的两类车辆——卡车和轿车。如果所有卡车的照片都是在晚上拍摄的,而所有汽车的照片都是在白天拍摄的,那么模型会假设夜间的任何东西都一定是卡车。解决关键变量和结果将有助于减少解决方案出现不需要和意外行为的可能性。忽略数据作业为了构建训练有素的统计模型,我们必须了解所分析数据的来源和收集方式。这部分信息可能会对算法性能、变量和潜在结果产生至关重要的影响。此外,如果模型对数据进行了错误分类,很可能是因为它没有针对具有理想解决方案的最具代表性的数据进行训练。开发、测试和发布模型模型的有用性来自训练数据的结构和质量。在企业发布机器学习解决方案之前,数据科学家会使用数据集对算法模型进行测试,确保其性能和结果符合要求。在整个新数据训练过程中,必须仔细可视化和监控这些数据。如果数据科学家匆忙完成测试,或者未能为模型提供足够的数据以用作可变权重材料,那么这些数据集可能无法代表算法在现实世界中可能遇到的情况。最重要的是提供足够的数据作为可变权重。在测试阶段,提供更多的数据可以极大地提升模型的质量,确保其在生产环境中能够真正发挥作用。忽视潜在错误项目的最终目标可能会造成新的障碍并引发潜在的失误。曾经有一家大公司推出了一款社交媒体机器人,目的是用它来模仿青少年的语言模式,从而实现流畅的互动。然而,用户向机器人提出了一些有争议的话题,导致它调整了学习方式——公司最终在不到24小时内撤下了聊天机器人。并非每个机器学习项目都应该是开放的或允许用户访问和操作其数据,并且了解您的算法所处的环境将大大有助于避免此类错误。选择更多的数据当测试模型的性能没有达到预期的结果时,我们有两个选择——设计更好的学习算法,或者收集更多的数据。添加更多数据有助于工程师了解当前模型的性能限制。如果收集更多数据更容易,那么继续将其输入算法,看看是否能得到更有意义的结果。不要忽视诚信的重要性。最近在实际应用中获得广泛成功的一类算法是集成学习——即通过多组模型的组合来解决计算智能问题。集成学习的典型例子包括堆叠简单的分类器,例如逻辑回归。与每个单独的分类器相比,这些集成学习方法可以显着提高预测性能。原标题:机器学习的6个误区原作者:RyanFrancis
