当前位置: 首页 > 科技观察

关注-7个对机器学习有帮助的云计算服务

时间:2023-03-18 19:21:05 科技观察

数据分析是很多组织在云计算平台上的主要计算工作,可能是因为IT技术人员擅长编程,也可能是因为科学家实验室的设备需要连接直接到计算机记录数据,或者可能是因为数据集太大以至于迁移它们很耗时。无论出于何种原因,科学家和数据分析师都逐渐接受了远程计算。用于机器学习、人工智能和数据分析的基于云的工具激增。其中一些应用程序是基于云的文档编辑和电子邮件,技术人员可以从各种设备登录到中央存储库并在远程位置工作,甚至是在路上或海滩上。云计算可以处理文件备份和同步,简化工作流程。其实数据分析更适合云计算。当数据集很大时,云计算用户可以在租用的硬件设施上运行大型作业,从而更快更好地完成工作。用户无需启动计算机并花费大量时间进行处理。使用云计算,只需启动几十个大内存的云计算实例,几分钟即可观察处理结果,节省时间和成本。组织采用云计算也存在一定的风险,最大的风险是对用户隐私的担忧。一些数据分析涉及用户的个人信息。人们已经习惯于在实验室中处理数据的安全问题,因此很难知道云中发生了什么。人们还需要一段时间才能适应云计算提供商使用的最佳实践。人们已经认识到,云计算提供商可能会聘请更多的安全顾问。如果个人计算机连接到全球互联网,那么人们可能会说它已经是云计算的一部分。幸运的是,有一些解决方法。最简单的方法是使用诸如用随机ID替换个人信息等技术对数据进行匿名化处理。这种方法并不完美,但可以在很大程度上缓解黑客突破云计算防御后可能带来的麻烦。还有其他一些优点。一些提供商可能会向公众共享或开源数据集,这可能会产生更多的组合。一些云计算提供商正在整理自己的数据集并降低存储成本以吸引用户。如果用户愿意,可以尝试将产品销售与公共数据集中的任何其他信息(如天气或太阳黑子)相关联。谁知道?这里有很多奇怪的相关性。这里有七种不同的基于云的机器学习服务,可帮助人们理解数据集中的相关性和信号。1.AmazonSageMakerAmazon创建SageMaker是为了简化其机器学习工具的使用。AmazonSageMaker结合了不同的AWS存储选项(S3、Dynamo、Redshift等),并将数据传输到适用于流行机器学习库(TensorFlow、MXNet、Chainer等)的Docker容器中。在最终模型作为自己的API部署之前,可以使用JupyterNotebook跟踪所有工作。SageMaker将用户的数据移动到亚马逊公有云的服务器上,这样用户就可以专注于算法而不是流程的思考。如果你想在本地运行算法,你总是可以下载一个Docker镜像来简化操作。2.MicrosoftAzureMachineLearning微软已经看到了机器学习的未来,并全力投入Machine.ingStudio,这是一种用于在数据中查找信号的复杂图形工具。这就像人工智能的电子表格。有一个拖放界面,用于构建流程图以理解数字。文档说“不需要编码”,这在技术上是正确的,但用户仍然需要像程序员一样思考才能有效地使用它,而不会陷入构建代码的困境。但是,如果错过了语法错误、数据类型和其他编程乐趣,用户可以导入用Python、R或其他一些选项编写的模块。在最有趣的选项中,微软增加了基础设施,以利用它从人工智能中学到的东西,并将预测模型转化为在Azure公共云中运行的Web服务。因此,用户可以构建一个训练集,创建一个模型,然后只需敲击几下键盘并点击鼠标,答案就会以来自Azure服务的JSON数据包形式提供。3.BigMLBigML是一个用于数据分析的混合仪表盘,可以在BigML云平台上使用,也可以安装在本地。它的主界面是一个仪表板,列出了等待由数十个机器学习分类器、聚类器、回归器和异常检测器分析的所有文件。单击并显示结果。最近,该公司专注于增强堆栈提供有用答案能力的新算法。新的融合代码可以整合多种算法的结果以提高准确性。通过在BigML自己的服务器上使用大量免费套餐。用户还可以在AWS、Azure或谷歌云平台上构建私有部署。如果这个还是比较公开的,他们会部署在用户的私服上。4.DatabricksDatabricks工具集是由ApacheSpark的一些开发人员构建的,他们采用开源分析平台并添加了一些显着的速度增强功能,通过一些巧妙的压缩和索引增加了吞吐量。称为Delta的混合数据存储可用于存储大量数据,然后对其进行快速分析。当新数据到达时,可以将其压缩到旧内存中以便快速重新分析。ApacheSpark的所有标准化分析程序都可以对这些数据进行操作,但对Spark基础设施进行了一些急需的改进,例如用于分析代码的集成记事本。Databricks与AWS和Azure集成,并根据消耗和性能定价。每个计算引擎都以Databrick单位衡量。企业需要为更快的模型支付更多费用。5.DataRobot这里的许多方法允许用户只需敲击几下键盘就可以构建机器学习模型。DataRobot声称只需单击一下键盘就可以同时构建数百个模型。完成模型后,用户可以筛选它们以找到表现更好的模型并继续进行预测。秘密是一个大规模并行处理引擎,换句话说,用于分析的多台机器。DataRobot正在通过实施新算法和扩展当前算法进行扩展。该公司最近收购了Nutonian,其Eureqa引擎应该会增强自动化机器学习平台创建时间序列和分类模型的能力。该系统还为更高级的用户提供了PythonAPI。DataRobot可通过DataRobotCloud或EmbeddedEngineer附带的企业软件版获得。6.谷歌云机器学习引擎谷歌对TensorFlow投入巨资,这是一种在数据中寻找信号的标准开源库,现在用户可以在谷歌云平台上试用TensorFlow。GoogleCloudMachineLearningEngine中的一些工具是开源的,任何下载它们的人都可以免费使用,还有一些工具是GoogleCloudPlatform中商业选项的一部分。这让用户可以自由探索,并避免一些锁定,因为大部分代码都是开源的,可以在任何Mac、Windows或Linux机器上运行。还有几种不同的工具。可能最容易采用的工具是Colaboratory,它将JupyterNotepad连接到Google的TensorFlow后端,因此用户可以编写代码并查看代码的运行情况。谷歌还为想要进行实验的科学家提供了TensorFlowResearchCloud。在合适的情况下,用户可以使用GPU或TPU在谷歌的加速硬件上运行机器学习模型。7.IBMWatsonStudio现在Watson把IBM的大部分资源投入到人工智能上。IBMWatsonStudio是一种用于在云端或本地探索数据和训练模型的工具。当数据进来时,结果会以漂亮的图表显示在公司的仪表盘上。最大的区别可能是WatsonStudio的桌面版本。用户可以使用基于云的版本来研究数据,并享受弹性资源和中心化存储库带来的所有功能。或者,用户可以利用防火墙的隐私和桌面的便利性来做同样的事情。每个云中的机器学习模型虽然许多人希望为他们的AI研究选择一个仪表板,但没有理由不接受更多选项。完成所有预处理和数据清理后,用户可以将相同的CSV格式数据提供给所有这些服务,并比较结果以找到最佳选择。其中一些服务已经提供算法之间的自动比较。为什么不使用多个?用户还可以利用一些不断发展的开放标准。例如,JupyterNotepad通常无需太多修改即可工作。用户可以在一个平台上进行开发,然后将大部分代码与数据一起移动,以在不同平台上测试任何新的或不同的算法。人们距离标准化还有很长的路要走,许多算法之间存在奇怪且无法解释的差异。因此,用户需要尝试尽可能多的不同建模工具,而不是只考虑一种算法或一种训练方法。