当前位置: 首页 > 科技观察

支持机器学习的8个数据仓库

时间:2023-03-22 01:43:32 科技观察

【.com快译】对于非常大的数据集,理想的情况是在数据已经存在的地方建立模型,这样就不需要导出大量的数据。有一些数据仓库在一定程度上支持这一点。随之而来的问题是:哪些数据仓库支持机器学习?他们是如何做到的呢?下面按字母顺序对数据仓库进行分析和解释。1.AmazonRedshiftAmazonRedshift是一个托管的PB级数据仓库,旨在使用户能够使用现有的商业智能工具简单高效地分析所有数据。它可以针对从数百GB到几PB甚至更大的数据集进行优化,并且每年每TB存储的成本低于1,000美元。AmazonRedshift-ML旨在让用户使用SQL命令轻松创建、训练和部署机器学习模型。RedshiftSQL中的CREATEMODEL命令定义用于训练的数据和目标列,然后通过同一区域中的加密AmazonS3存储桶将数据传递给AmazonSageMakerAutopilot进行训练。在AutoML训练之后,Redshift-ML编译最佳模型并将其注册为Redshift集群中的预测SQL函数。然后可以通过在SELECT语句中调用预测函数来调用模型进行推理。总结:Redshift-ML使用SageMakerAutopilot通过SQL语句从指定数据自动创建预测模型,这些数据被提取到S3存储桶中。其最佳预测功能已在Redshift集群中注册。2.BlazingSQLBlazingSQL是建立在RAPIDS数据科学生态系统之上的GPU加速SQL引擎,以开源项目和付费服务的形式存在。RAPIDS是Nvidia开发的一套开源软件仓库和API,采用计算统一设备架构(CUDA),基于ApacheArrow柱状内存格式。CuDF是RAPIDS的一部分,是一个类似于Pandas的GPUDataFrame存储库,用于加载、连接、聚合、过滤和其他数据操作。Dask是一个开源工具,可以将Python包扩展到多台计算机。Dask可以在同一系统或多节点集群中跨多个GPU分布数据和计算。Dask与RAPIDScuDF、XGBoost和RAPIDScuML集成,用于GPU加速数据分析和机器学习。总结:BlazingSQL可以在AmazonS3中的数据湖上运行GPU加速查询,将生成的DataFrames传递给cuDF进行数据处理,最后使用RAPIDSXGBoost和cuML进行机器学习,并使用PyTorch和TensorFlow进行深度学习。3、GoogleCloudBigQueryBigQuery是GoogleCloud托管的PB级数据仓库,允许用户近乎实时地分析大量数据。BigQueryML允许用户使用SQL查询在BigQuery中创建和执行机器学习模型。BigQueryML支持线性回归预测;用于分类的二元和多类逻辑回归;用于数据分割的K均值聚类;用于创建产品推荐系统的矩阵分解;和执行时间序列预测的时间序列,其中包括异常和季节性假期;XGBoost分类和回归模型;用于分类和回归模型的基于TensorFlow的深度神经网络;AutoML表;和TensorFlow模型。用户可以使用包含来自多个BigQuery数据集的数据的模型进行训练和预测。BigQueryML不会从数据仓库中提取数据。用户可以使用CREATEMODEL语句中的TRANSFORM子句对BigQueryML进行特征工程。摘要:BigQueryML通过SQL语法将GoogleCloudMachineLearning的大部分功能引入BigQuery数据仓库,而无需从数据仓库中提取数据。4.IBMDb2WarehouseIBMDb2Warehouse是一种托管的公共云服务。用户还可以使用自己的硬件或在私有云中在本地设置IBMDb2Warehouse。作为数据仓库,它具有内存数据处理和在线分析处理的柱状表等特性。其Netezza技术提供了一组功能强大的分析工具,旨在有效地将查询引入数据。还有一组存储库和功能可帮助用户获得所需的精确见解。Db2Warehouse支持使用Python、R和SQL进行数据仓库内机器学习。IDAX模块包含用于分析商店的程序,包括方差分析、关联规则、数据转换、决策树、诊断度量、离散化和矩、K-均值聚类、K-最近邻、线性回归、元数据管理和朴素贝叶斯分类、主成分分析、概率分布、随机抽样、回归树、顺序模式和规则,以及参数和非参数统计。简介:IBMDB2DataWarehouse包括一组广泛的数据仓库SQL分析,包括一些基本的机器学习功能,以及对R和Python的数据库内支持。5.KineticaKinetica流数据仓库将历史和流数据分析与位置智能和人工智能结合在一个平台上,所有这些都可以通过API和SQL访问。Kinetica是一个非常快速、分布式、柱状、内存优先、GPU加速的数据仓库,具有过滤、可视化和聚合功能。Kinetica将机器学习模型和算法与用户数据相集成,以实现大规模的实时预测分析。它允许用户简化数据管道和分析、机器学习模型和数据工程的生命周期,并使用流计算功能。Kinetica为GPU加速机器学习提供完整的生命周期解决方案:管理Jupyter笔记本、通过RAPIDS进行模型训练,以及在Kinetica平台中自动部署和推理模型。简介:Kinetica为基于流数据的GPU加速机器学习和计算功能提供了完整的数据仓库生命周期解决方案。6、MicrosoftSQLServerMicrosoftSQLServer机器学习服务支持SQLServerRDBMS中的R、Python、Java、PREDICTT-SQL命令和rx\uPREDICT存储过程,支持SQLServer大数据集群中的SparkML。在R和Python中,Microsoft提供了几个用于机器学习的软件包和数据仓库。用户可以将训练好的模型存储在数据仓库中,也可以存储在外部。AzureSQL托管实例支持Python和R的机器学习服务作为预览。MicrosoftR具有扩展功能,可以处理磁盘和内存中的数据。SQLServer提供了一个扩展框架,使R、Python和Java代码能够使用SQLServer数据和功能。在Kubernetes中的SQLServer、Spark和HDFS上运行的SQLServer大数据集群。当SQLServer调用Python代码时,它可以依次调用AzureMachineLearning并将生成的模型保存在数据仓库中进行预测。总结:当前版本的SQLServer可以训练和推断多种编程语言的机器学习模型。7.Oracle数据库OracleCloudInfrastructure(OCI)DataScience是一个托管的无服务器平台,供数据科学团队使用OracleCloudComputingInfrastructure(包括OracleAutonomousDatabase和OracleAutonomousDataWarehouse)构建、训练和管理机器学习模型。它包括由开源社区和OracleAcceleratedDataScience(ADS)存储库开发的以Python为中心的工具、存储库和包。ADS支持预测模型的端到端生命周期:数据采集、分析、准备和可视化。特征工程。模型训练(包括OracleAutoML)。模型的评估、规范和解释(包括OracleMLX)。Oracle函数的模型部署。OCIDataScience与OracleCloudInfrastructure堆栈的其余部分集成,其中包括函数、数据流、自治数据仓库和对象存储。目前支持的模型包括:OracleAutoMLKerasScikit-learnXGBoostADSTuner(超参数调整)ADS还支持机器学习可解释性(MLX)。底线:Oracle云计算基础设施可以托管与其数据仓库、对象存储和功能集成的数据科学资源,以实现完整的模型开发生命周期。8.VerticaVertica分析平台是一个可扩展的列式存储数据仓库。它以两种模式运行:企业模式将数据本地存储在构成数据仓库的节点的文件系统中;EON模式将所有计算节点的数据统一存储。Vertica使用大规模并行处理来处理PB级数据,并使用数据并行性进行内部机器学习。它有八种用于数据准备的内置算法、三种回归算法、四种分类算法、两种聚类算法、多种模型管理功能,以及导入在别处训练的TensorFlow和PMML模型的能力。一旦模型被拟合或导入,它就可以用来进行预测。Vista还允许使用C++、Java、Python或R编写用户定义的扩展程序。用户可以使用SQL语法进行训练和推理。总结:Vertica有一套很好的内置机器学习算法,可以导入TensorFlow和PMML模型。它可以根据导入的模型以及自己的模型进行预测。MindsDBMindsDB是一个可解释的AutoML框架,供开发人员在Pytorch之上构建。如果您的数据仓库不支持内部机器学习,您可以使用MindsDB添加该功能,它集成了六个数据仓库和五个BI工具。支持的数据仓库包括MariaDB、MySQL、PostgreSQL、ClickHouse、MicrosoftSQLServer和Snowflake,MongoDB集成正在进行中,并承诺在2021年晚些时候与流数据仓库集成。目前支持的BI工具包括SAS、QlikSense、MicrosoftPowerBI、Looker,还有Domo。MindsDB具有AutoML、AITables和ExplainableAI(XAI)。用户可以从MindsDBStudio、SQLINSERT语句或PythonAPI调用调用AutoML训练。训练可以选择使用GPU,也可以选择创建时间序列模型。用户可以将模型保存为数据仓库表,并通过针对保存的模型、MindsDBStudio或PythonAPI调用的SQLSELECT语句来调用它们。可以在MindsDBStudio中评估、解释和可视化模型质量。用户还可以将MindsDBStudio和PythonAPI连接到本地和远程数据源。MindsDB还提供了Lightwood,这是一种在PyTorch上运行的简化的深度学习框架。底线:MindsDB为许多缺乏机器学习内置支持的数据仓库带来了有用的机器学习功能。越来越多的数据仓库支持内部机器学习。它的确切机制各不相同,有些比其他的更能干。然而,如果用户拥有大量数据并且可能需要在样本子集上拟合模型,那么上面列出的八个数据仓库中的任何一个,以及其他在MindsDB帮助下的数据仓库,都可以帮助用户从完整的数据集中学习到构建模型而无需为数据导出支付更多费用。原标题:支持库内机器学习的8个数据库,作者:MartinHeller