当前位置: 首页 > 科技观察

微软建立R工具家族,将大数据带入寻常百姓家

时间:2023-03-21 19:28:43 科技观察

Microsoft构建R工具系列,将大数据带入日常生活各种大数据问题。RevolutionAnalytics将开源模型与商用工具相结合,推出了一系列解决方案来支持学术和个人用例,同时利用Hadoop和其他相关软件通过大规模数据发现潜在问题。在微软的控制下,更名为RServer,成为连接本地环境和云环境数据的桥梁。在过去两年中,微软宣布了一系列对其R工具系列的重大更新。R语言已经成为微软数据战略的重要组成部分。它在Azure和SQLServer中得到支持,更重要的是,它基于Azure机器学习服务,将预处理后的数据传递给机器学习管道。也成为微软旗下的重点跨平台服务器产品,针对RedHatLinux和SuseLinux发布了相应的版本。R语言在微软生态系统中无处不在除了微软之外,开源的R语言在数据科学领域也扮演着重要的角色,在学术环境中也有很多支持。(根据IEEE统计,它的受欢迎程度在所有编程语言中排名第五。)其实我们不需要专业的统计知识就可以使用R,因为ComprehensiveRArchiveNetwork(简称CRAN,一套R应用公共库)目前拥有9000多套统计模块和算法供用户选择。Microsoft的R版本是一组跨越桌面、本地服务器和云环境的解决方案。立足本地,提供免费的R开发客户端,微软付费旗舰VisualStudio开发环境也支持R语言。在内部设施方面,RServer运行于Windows和Linux系统,同时支持SQLServer,允许用户访问适用于自己数据的各种统计分析工具。它还支持多种基于Hadoop和Spark的本地大数据服务,同时允许你在Azure上运行RServer和HDInsight服务。R是数据科学家的必备工具。虽然R语言比较简单,但您仍然需要对统计分析有深入的了解,才能充分利用它的优势。我个人的本科专业是统计学,所以我发现R相当复杂,许多基本概念需要研究生水平的用户才能完全理解。而问题不在于人会不会写R代码,而在于能不能看懂得到的结果。这可能是各类企业在处理大数据时面临的最大问题:掌握执行分析所需的技能很重要,但更重要的是使用相同的技能来解释结果。对此,R语言内置了绘图工具,可以帮助你可视化关键统计指标,从而简化理解过程。与MicrosoftRServer合作,免费的MicrosoftROpen可以帮助您的分析团队快速开始使用R,而无需对服务器产品进行任何前期投资。它还是一种有用的工具,可用于快速尝试新的分析算法并使用现有数据回答问题。这种方法可以在整个分析生命周期中发挥重要作用,从数据准备开始,转向模型开发,最后将模型转换为可以嵌入业务应用程序的工具。R还有另一个有趣的角色,即与基于GPU的机器学习工具协作。在这里,R用于协助训练模型,为后续缩放做准备。微软在最新的RServer版本中内置了自研的机器学习算法,因此您可以在将其上传到本地大数据实例或云端之前对其进行测试。在最近的一次新闻发布会上,微软展示了该解决方案的天文图像处理能力——他们首先使用一组银河系数据库训练了一个基于机器学习的分类器,然后在云端托管的GPU上运行生成的模型。多于。R是一种轻量级语言,专为处理离散数据样本而设计。这意味着它具有极高的可扩展性并且可以很好地处理数据并行性。同一套R模型可以运行在多台服务器上,因此快速处理大量数据变得非常简单。您只需要适当地打包数据并将其交付给RServer实例。同样,同一组代码可以在不同的实现上运行,因此为本地数据源构建的模型可以部署在SQLServer中并用于处理Hadoop数据湖。R简化了可操作数据模型的构建方式。因此,R很容易实现可操作性。您的数据科学团队可以构建您需要的模型,而开发人员可以编写应用程序和构建基础架构以利用这部分代码的潜力。准备就绪后,该模型可以快速部署,甚至可以在未来随时替换为其他改进的模型。同样,我们可以在不同的应用程序中使用相同的模型来处理相同的数据集。作为一种常见的模式,您可以使用内部仪表板来显示与面向客户和面向消费者的代码相同的处理结果。然后,您可以使用此数据主动做出响应,例如提供延误和重新预订信息,以解决模型建议的可能由天气引起的延误。随着数据量的增加,误报和误报会不断减少,这意味着模型本身得到了改进。在SQLServer中实现R支持具有实际意义。首先,随着微软数据库平台开始充当内部数据和云端数据,甚至是用户记录系统和大数据工具之间的桥梁,很早就需要在数据中加入细粒度的分析工具。通过一个简单的工具,我们可以利用R模型来提供预处理结果并在SQL应用程序中使用它们。数据库开发人员可以与数据分析团队合作实施这些模型,而无需在构建应用程序时使用任何新技能。微软已经意识到,并非每个企业都需要或有能力聘请数据科学家。对于各种常见的分析问题,例如预测在线商店中的客户流失或欺诈活动,SQLServer提供了一系列预定义的模板和相应的模型。这允许用户使用任何与R兼容的IDE对其进行自定义,并通过PowerShell脚本轻松部署它。原标题:Microsoft’sRtoolsbringdatasciencetothemass,原作者:SimonBisson