当前位置: 首页 > 科技观察

使机器学习采用更容易的6种工具

时间:2023-03-13 00:53:20 科技观察

如今,许多供应商通过提供自动化数据准备和算法选择层来揭开机器学习的神秘面纱,从而使数据智能型业务用户能够采用人工智能技术。“机器学习”这个词有一种神奇的光环。机器学习通常不会被普通人采用,数据科学家是高度专业化的炼金术士,他们在研究部门和实验室将数据变成“黄金”,但简单地说机器学习是一门科学。除此之外,几乎没有提供任何解释。当然,这可能是一个鲜为人知的事实,但多年来机器学习工具已经发展到几乎任何人都可以按下按钮并启动机器来学习有价值的东西的程度。这不是一件容易的事,但将数据整合在一起并将其转化为可操作的见解的工作已经自动化,许多积极的组织都可以做到。这种缓慢的复兴是由商业世界中许多非程序员已经非常精通数据的现实驱动的。载有数字的电子表格是各级业务决策者的通用语言,机器学习算法也是如此,例如表格中明确定义的数据行和列。机器学习的新工具基本上只是将表格数据转化为有用答案的另一套策略和选项。这些工具的优势在于能够处理收集数据、添加结构、保持一致性,然后完成繁重的工作。它们简化了数据收集过程并简化了在行和列中保存信息的过程。这些工具不够智能,无法为用户完成所有这些学习。用户必须提出正确的问题并找到正确的位置。但这些工具加快了寻找答案的速度,因此可以覆盖更多领域并进行更多搜索。AutoML:机器学习的民主化最近,新的流行术语“AutoML”开始出现,表示附加到机器学习算法的附加自动化元层。标准算法一直旨在自行寻找模式和规则,但传统算法带有许多选项和参数。数据科学家通常将80%到99%的时间花在寻找高度预测性规则上。AutoML通过尝试一系列选项、测试它们然后尝试更多选项来自动化此阶段。不是用机器学习算法跑一次,而是跑N次,做一些调整,再跑N次,以此类推,直到耗尽用户的预算、时间和耐心。AutoML工具非常适合云计算,它们可以启动足够多的机器来并行运行,然后在完成后将它们返回到池中。用户只需为高峰计算时间付费。一般来说,AutoML算法对于开始自己探索机器学习的人来说是一个不错的选择。自动化通过在为用户测试结果之前处理设置参数和选项的一些基本工作来简化工作。随着用户变得更加成熟并开始了解结果,他们可以承担更多此类工作并自行设置值。新系统还让用户更容易理解机器是如何学习的。如果经典编程将规则和数据转化为答案,那么机器学习算法则相反,将答案和数据转化为规则。这些规则可能会告诉用户业务中发生了什么。这些简化工具的开发人员还创建了界面来解释算法发现的规则,更重要的是,如何复制结果。他们想打开黑匣子,方便理解。使机器学习更轻松的6种工具所有这些功能为那些使用数字、电子表格和数据的人打开了机器学习的世界,消除了对编程和数据科学的巨大需求。以下六个选项简化了用户使用机器学习算法在数字海洋中寻找答案的过程。1.Splunk最初的Splunk版本最初是作为搜索或“窥探”现代Web应用程序创建的大量日志文件的工具。它已被开发用于分析所有形式的数据,尤其是时间序列和其他按顺序生成的数据。该工具使用复杂的可视化程序在仪表板中显示结果。新版本包括将数据源与TensorFlow等机器学习工具和一些高质量Python开源工具集成的应用程序。它们为检测异常值、标记异常和生成未来值预测提供了快速解决方案。它们针对在非常大的数据集中搜索文件进行了优化。2.DataRobotDataRobot内部的堆栈是用R、Python或其他几种平台编写的开源机器库的集合。用户将只处理一个Web界面,该界面显示用于设置管道的类似流程图的工具。DataRobot连接到主要数据源,包括本地数据库、云数据存储以及下载的文件或电子表格。用户构建的管道可以清理数据、填充缺失值,然后生成标记异常值并预测未来值的模型。DataRobot还可以尝试对做出某些预测的原因提供“人性化的解释”,这对于理解AI应用非常有用。它可以部署在云和本地解决方案的混合体中。云计算可以通过共享资源提供强大的并行性和吞吐量,而本地安装可以提供更多的隐私和控制。3.H2OH2O喜欢用“driverlessAI”来形容其探索各种机器学习解决方案的自动化堆栈。它将数据源(数据库、Hadoop、Spark等)联系在一起,并将它们提供给具有广泛参数的各种算法。用户可以控制用于解决问题的时间和计算资源,并测试各种参数组合,直到满足预算。可以通过仪表板或Jupyter笔记本浏览和审核结果。H2O的核心机器学习算法和与Spark等工具的集成是开源的,但所谓的“无人驾驶”选项是出售给企业客户的专有软件包之一。4.RapidMinerRapidMiner生态系统的核心是一个工作室,用于从可视化图标创建数据分析。它将清理用户的数据,然后通过各种统计算法运行它。如果用户想使用机器学习而不是更传统的数据科学,自动化模型将从各种分类算法中进行选择,并搜索各种参数,直到找到合适的匹配项。该工具的目标是生成数百个模型,然后识别好的模型。创建模型后,该工具可以部署它们,同时测试它们的成功率并解释模型如何做出决策。可以使用可视化工作流编辑器测试和调整对不同数据字段的敏感性。最近的改进包括更好的文本分析、用于构建可视化仪表板的各种图表,以及用于分析时间序列数据的更复杂的算法。5.BigMLBigML仪表板提供了数据科学的基本工具,用于识别相关性,这些相关性可以构成机器学习中更复杂工作的基础。例如,他们的深度网络为测试和优化更精细的神经网络提供了复杂的机制。模型的质量可以与其他算法进行比较,并使用标准化的比较框架,帮助用户在经典数据科学和更复杂的机器学习之间做出选择。BigML的仪表板在浏览器中运行,其分析可以在BigML云平台或服务器机房中运行。它的云版本价格较低,以鼓励早期采用,甚至还有免费套餐。其成本主要取决于数据集大小的限制和可调用的计算资源量。免费层将使用不超过两个并行运行的进程分析多达16MB的数据。较小的高级帐户的定价非常合理,每月账单仅为30美元,但价格会随着资源需求的增加而上涨。6.RStudioR对于非程序员来说并不是一种容易上手的语言,但它仍然是进行复杂统计分析的最基本的工具之一,因为它很受硬核数据科学家的欢迎。RStudio是一种工具,可为用户提供一组菜单和点击选项,使用户更容易与运行在内部深处的R层进行交互。能够处理电子表格的高级管理人员可以使用最简单的选项来运行基本分析,甚至是一些复杂的分析。有些部分会让一些用户感到困惑,但它即将向所有对此感兴趣的人开放和访问。虽然仍然会有一些困惑,但对于想要探索尖端工具的人来说,这是值得的。