机器学习工程师是开发产品和构建算法的团队的重要组成部分。他们与数据专家密切合作,了解理论知识和行业应用。数据科学家和机器学习工程师之间的主要区别是:机器学习工程师构建、开发和维护机器学习系统的产品数据专家进行研究以形成机器学习项目的想法,然后分析以了解指标机器学习系统的影响下面介绍一下目前最流行的15个机器学习框架:1.ApacheSingaApacheSinga是一个通用的分布式深度学习平台,用于在大数据集上训练深度学习。它是一种基于分层抽象的简单开发模型设计。它还支持各种当前流行的深度学习模型,包括前馈模型(卷积神经网络,CNN),能量模型(受限玻尔兹曼机,RBM和递归神经网络,RNN),还为用户提供了许多内联层。2.AmazonMachineLearning(AML)AmazonMachineLearning(AML)是一项服务,可以让各级开发人员轻松使用机器学习技术。它提供可视化工具和向导,可以指导您无需学习复杂的机器学习算法和构建机器学习的技术。3.AzureMLStudioAzureMLStudio允许MicrosoftAzure的用户创建和训练模型,然后将这些模型转换成可供其他服务使用的API。虽然您可以将自己的Azure存储链接到更大模型的服务,但每个帐户模型数据的存储容量限制为最大10GB。感谢Microsoft和一些第三方,Azure中提供了大量算法。甚至不需要注册账号,匿名登录即可使用AzureMLStudio服务长达8小时。4.CaffeCaffe是伯克利视觉学习中心(BLVC)和社区贡献者基于BSD-2协议开发的深度学习框架。秉承“代表性、效率、模块化”的开发理念。模型和组合优化通过配置而不是硬编码实现,用户可以根据需要在CPU处理和GPU处理之间切换。Caffe的高效率使其在实验研究和工业部署中表现出色。使用单个NVIDIAK40GPU处理器每天可以处理超过6000万张图像。5.H2OH2O使应用数学和预测分析来解决当今最具挑战性的业务问题变得容易。它巧妙地结合了其他机器学习平台未使用过的独特功能:***开源技术、易于使用的WebUI和熟悉的界面、支持常见的数据库和不同的文件类型。有了H2O,你可以使用现有的语言和工具。此外,还可以无缝扩展到Hadoop环境。6.MassiveOnlineAnalysis(MOA)MassiveOnlineAnalysis(MOA)是目前最流行的数据流挖掘开源框架,拥有非常活跃的社区。它包含一系列机器学习算法(分类、回归、聚类、异常值检测、概念漂移检测和推荐系统)和评估工具。与WEKA项目一样,MOA也是用Java编写的,但它的可扩展性更强。7.MLlib(Spark)MLlib(Spark)是ApacheSpark的机器学习库,目的是使机器学习可扩展且易于操作,它由常用的学习算法和实用程序组成,包括分类、回归、聚类、协同过滤、维度减少,包括低级优化的本地语言和高级管道API。8.MlpackMlpack是一个基于C++的基础学习库,于2011年首次推出,据该库的开发者介绍,其设计理念是“可扩展性、高效性和易用性”。有两种方法可以实现Mlpack:通过快速处理简单的“黑匣子”缓存来执行命令行,或者使用C++API来完成更复杂的工作。Mlpack提供简单的命令行程序和C++类,可以集成到更大的机器学习解决方案中。9.PatternPattern是Python编程语言的网络挖掘组件,具有数据挖掘工具(Google、Twitter、WikipediaAPI、网络爬虫、HTMLDOM解析器)、自然语言处理(词性标注、n-gram搜索、情感分析、WordNet接口)、机器学习(向量空间模型、聚类、支持向量机)、网络分析和可视化。10.Scikit-LearnScikit-Learn在数学和科学工作的几个现有Python包(Numpy、SciPy和matplotlib)的基础上扩展了Python的使用。生成的库可用于交互式工作台应用程序或嵌入到其他软件中以供重复使用。该工具包基于BSD协议,完全免费开源,可以重复使用。Scikit-Learn包含用于机器学习任务的多种工具,例如聚类、分类、回归等。Scikit-Learn由大量开发人员和机器学习专家组成的社区开发,因此Scikit-Learn中最前沿的技术倾向于在短时间内开发。11.ShoguShogu是最早的机器学习库之一。它创建于1999年,使用C++开发,但并不局限于C++环境。借助SWIG库,Shogun可以使用各种语言环境,例如Java、Python、c#、Ruby、R、Lua、Octave和Mablab。Shogun专为跨各种特定类型和学习配置环境的统一大规模学习而设计,例如分类、回归或探索性数据分析。12.TensorFlowTensorFlow是一个使用数据流图进行数值计算的开源软件库。它实现了数据流图,其中张量(“张量”)可以通过一系列以图形方式描述的算法进行处理,以及数据在系统中如何变化被称为“流”,因此得名。数据流可以用C++或Python编码以在CPU或GPU设备上运行。13.TheanoTheano是一个基于BSD协议发布的可定义、可优化、可数值计算的Phython库。使用Theano也可以达到与使用C相媲美的速度,实现大数据处理,是一种支持高效机器学习的算法。14.TorchTorch是一种科学计算框架,广泛支持以GPU为先的机器学习算法。由于采用简单快速的脚本语言LuaJIT和底层C/CUDA,该框架易于使用且高效。Torch旨在让您以极其简单的过程、绝对的灵活性和速度来构建自己的科学算法。Torch基于Lua开发,拥有庞大的生态社区驱动库封装设计,针对机器学习、计算机视觉、信号处理、并行处理、图像、视频、音频和网络等。15.VelesVeles是一个分布式深度学习平台用C++开发的应用程序,但它使用Python在节点之间自动化和协作任务。在将相关数据集中到集群之前,可以对数据进行分析和自动归一化,RESTAPI允许每个训练好的模型立即添加到生产环境中,注重性能和灵活性。Veles几乎没有硬编码,可以在所有被广泛认可的网络拓扑结构上进行训练,例如全卷积神经网络、卷积神经网络、递归神经网络等。
