如果要从三大公有云提供商的发展规划中吸取一些经验,毫无疑问,软件工程的广度和深度已经成为不可替代的绝对竞争优势。具有讽刺意味的是,每当供应商推出一项实际上简化了IT运营任务的新服务时,市场就会变得高度依赖这些服务,而不是自行寻找类似的解决方案。换句话说,客户开始变得更加愚蠢,同时也更加依赖。这是一个非常成功的商业模式,值得认真考虑。目前,三大公共云解决方案——包括亚马逊网络服务、微软Azure和谷歌云平台——都有自己的机器学习服务。这些解决方案结合了三大科技巨头多年来在产品营销和广告方面积累的丰富经验,使用成本相当低。我们甚至难以想象,数以百万计的各种规模的企业客户能够抵抗这些机器学习服务带来的强大吸引力和竞争优势。显然,直接选择这些服务,远比自己写代码,想方设法用GPU、FPGA实现运行加速来得容易。很难看出机器学习和预测分析之间的明确界限,但这些服务在精简方面往往更接近预测分析,而不是专门设计用于从图像或视频中识别对象和个人、描述其内容,或诸如此类的个人助理服务如苹果和微软推出的Siri和Cortana,甚至控制自动驾驶车辆的密集机器学习机制。机器学习听起来比预测分析更酷,至少对于大多数临时用户而言是这样,因此该术语很受欢迎。但无论您选择哪个名称,亚马逊、谷歌和微软的新机器学习服务都可能对SASResearchInstitute、IBM和Oracle等预测分析提供商造成激烈竞争。历史总是惊人的相似,如今基于数据和计算时间成本的服务解决方案凭借其出色的易用性,再次击倒具有数十年发展演化历史的行之有效的分析软件产品。亚马逊刚刚于本周在旧金山举行的AWS峰会上推出了其机器学习服务。其亚马逊机器学习(AmazonMachineLearning,简称AML)乃至公司多年来在预测分析领域的丰富经验——作为一家早在互联网时代初期就涉足在线零售行业的公司互联网,亚马逊显然在这方面非常重要。有发言权。在投入大量研发资源建立供应链管理机制、欺诈检测系统和点击预测解决方案后,亚马逊作为在线零售商,正逐步向全世界推广其数据虚拟化、机器学习建模和预测分析工具,通过AWS云。世界。(亚马逊利用机器学习机制指导员工如何将物流车辆停放在最理想的位置,以确保货物能够以最顺畅的方式进入仓库或装载到车辆上并交付给客户。)内部开发人员还可以访问机器学习堆栈并将其嵌入到他们的应用程序中。即使你认为AML是免费赠品(类似于在线零售商随主要产品赠送的糖果),但可以肯定的是,AWS提供的机器学习算法绝对是值得珍惜的常规商品。—这是这家零售巨头用来管理其超大规模业务交易的解决方案。亚马逊机器学习服务发布一整套面向开发者的托管机器学习服务轻松创建机器学习模型多种可视化和优化模型秒级将模型投入生产成熟的技术当然,AML是数据驱动的起点,专为有针对性的培训和设计而设计对100GB以下的数据集进行预测分析。全分析对象的数据可以存储在以MySQL为后端的关系数据服务(RelationalDataService)、S3存储桶或来自Redshift数据仓库服务。后两者可以在用户需要时提供高达PB级的存储容量。也正是因为这个原因,很多客户积极选择亚马逊机器学习服务,尝试使用大数据集来构建更理想的分析模型——毕竟数据量越大,分析结果的准确性就越高,这显然比调整算法来构建良好的数据模型更好——这就是为什么AWS将数据集大小的上限设置为100GB。AWS指出,该服务实际上并没有从MySQL或Redshift中提取数据,而是使用查询结果进行相关处理。客户端可能需要在模型中使用的任何其他数据都可以保存为CSV文件并由S3托管。AWS还有大量的数据可视化工具,旨在帮助客户查看数据集中缺少哪些数据内容。如果数据集中10%的记录丢失,机器学习服务将简单地停止运行模型——这是因为在这种情况下,预测分析得出的结论无法达到预期的准确度。机器学习服务会综合分析数据并建立机器学习模型,用户也可以根据更多或更高质量的数据源进行调整,包括采用多种数据排序机制或采用不同级别的数据标准化。(准确的说,这种调整工作往往是有点可理解却不可言说的,具体的实现方式也会因不同的目的而有所不同。)总而言之,主要的思路就是对数据集进行调整,并用它来生成新的流入数据。基于数据的预测分析。为了让AML一次性解析整个数据集,同时进行预测分析,AWS还提供了批处理API——当然你也可以使用实时API对特定部分进行指定的预测分析数据根据实际需要。AML可以在大约100毫秒内返回预测请求。AWS声称这个速度级别可以完全满足Web、移动和桌面应用程序的需求;此外,AWS服务模型使用的IP地址每秒可完成约200项。交易的结果转移。亚马逊指出,客户可以利用AML服务在一天内实时执行数十亿次预测分析。之所以敢这么说,是因为亚马逊的零售业务本身使用该服务以每周超过500亿次预测分析的频率处理内部零售交易(包括产品推荐等)。最后需要强调的是,AML具有平台粘性。也就是说,你不能将自己的机器学习模型从AML服务中导出到外部,也不能将别处构建的机器学习模型导入到AML服务中。AML的目标场景如您所想,包括欺诈检测、需求预测、预测性客户支持和Web点击预测等。客户服务属于另一种使用场景,AML可用于分析来自邮件、论坛内容、电话支持评价的客户反馈信息,从而为产品工程和服务团队提供合理的建议,并将面对类似的直接新客户与将问题交给具有相关知识和解决问题能力的适当支持技术人员。在定价方面,AML服务的收费机制非常直观。存储在S3、RDS(即Redshift)上的数据需要支付本地存储费用。而如果你想对这类数据进行分析和建模,则需要支付每小时42美分的AML服务费;显然,我们采用的分析方法越多,需要付出的成本就越高。但是,您可以汇总您的使用量并享受价格折扣。每1000个预测分析处理的批量使用成本为10美分(最小计量单位为1000),而实时预测分析的成本为10000美分/次。机器学习模型每占用10MB内存,一分钱一分钱,一分钱一分钱。根据这个计费,如果我们需要用一个模型运行大约100万次预测分析,那么模型的运行时间大约是20个小时,成本在100美元多一点。#p#谷歌率先行动谷歌对其PredictionAPI服务的期望与AML和AzureMachineLearning基本一致,但前者的特点是很早就作为AppEngine平台云的一个组成部分作为2011年秋季为广大用户开发的。PredictionAPI的分析数据处理大小限制为2.5GB,相关文件将加载到GoogleStorage服务中。谷歌指出,一般的数据集梳理过程需要几分钟到几小时不等。一旦第一批数据整理完毕,就可以接受新的数据内容,后续的预测分析周期将缩短到200毫秒左右。谷歌免费服务版允许数据科学家每天进行100次预测分析操作,每天处理的数据总量不能超过5MB;此外,免费服务的总预测分析上限为20,000。在PredictiveAPI服务的付费版本中,谷歌要求用户每月至少支付10美元。此起拍价最多增加10000个预测分析额度,后续处理费用为每1000次50美分。数据集的初始处理成本为每MB五分之一美分,用户为相应数据集的后续更新支付相同的费用。付费服务的预测分析每日上限为200万次,谷歌还强调,如果数据科学家每天进行超过4万次预测分析,则必须提前通知。此外,上述服务费用不包含GoogleStorage存储活动数据集的费用。微软Azure从亚马逊聘请了机器学习专家。微软最初的目标很明确,就是要构建自己的机器学习栈,并在自己的Azure云上作为服务项目使用。具体实现方式是2013年7月直接集成技术,JosephSirosh大师从亚马逊挖来的。(就他而言,他的工作内容并没有太大变化。)微软的Azure机器学习服务于去年6月正式进入Beta测试阶段,其中包括该公司最初用于运行Bing搜索引擎和Xbox游戏网站的大量机器学习算法。微软还允许我们使用开源的R统计语言和Python编写相关算法,并将其纳入Azure机器学习堆栈。此外,开发者还可以构建免费的机器学习算法或购买市场上其他现成的付费解决方案。微软最近收购了RevolutionAnalytics,后者拥有一套可以显着提升R统计引擎性能的技术解决方案,这无疑有助于加速Azure机器学习服务的运行。作为微软的主要客户之一,卡内基梅隆大学目前正在使用Azure机器学习服务对其自身设施进行预测性维护,而世界知名电梯制造商蒂森克虏伯则使用该服务来预测各高等院校电梯设备的安全等级。升楼。Pier1也在使用Auzre机器学习服务,旨在利用这一技术解决方案来预测客户的购买活动。微软还在其美国中南部地区推出了Azure机器学习服务。该服务提供免费试用版,每次实验使用的模型数量上限为100套。(所谓模型集,根据AzureMachineLearning的官方解释,是指算法、数据源或数据转换过程。)作为服务的组成部分,MachineLearningStudio工具负责analyzingdatabetween10GBand以下数据集是第一次处理;但在此之后,预测分析工作针对托管在HDInsightHaddop服务中的Hive数据仓库层或来自AzureSQL数据库服务的查询。如果您需要处理大于10GB的数据集,您可以拆分它,以分散方式运行第一个修饰会话,最后合并连接。AzureMachineLearning服务的免费版本对数据集的第一次整理有最长1小时的限制(微软称其为实验性解决方案),存储容量限制为10GB;它在单个节点上运行,并采用限速分段API。需要付费的标准版Azure机器学习服务不限制使用的模型数量,可以在多个节点上运行,不使用API??刻意限制处理速度。面向数据科学家的Azure机器学习服务每人每月收费9.99美元,首次构建模型每小时收费1美元,向应用程序API交付结果每小时收费2美元,此外每月额外收费1,000美元。每笔API交易收取50美分的使用费。当然,你也可以付费选择更充实的数据集存储容量,这和亚马逊的机器学习服务很相似。IBMSoftLayer和Cognos/SPSS是另外两个潜在的解决方案。SASInstitute已经有了自己的SaaS分析机制,但很可能会选择与其他大型公有云提供商,甚至是RackspaceHosting等规模较小的企业进行广泛合作。不过话虽如此,Rackspace似乎在开源软件的道路上越走越远,因此与SAS建立合作伙伴关系似乎意义不大——但从另一个角度来看,以此开源R工具,ApacheMahout或SparkMLlibforHadoop结合自身这样的技术成果,进一步打造自己的机器学习服务,也不是没有可能。【编者推荐】OpenStack阵营再次分化,客户或转向公有云。四张图看未来十年公有云市场为什么Facebook不涉足公有云市场?[责任编辑:陈庆祥电话:(010)68476606]
