自动化的机器学习：5个常用AutoML 框架介绍

时间：2023-03-26 13:37:37 Python

自动化的机器学习：5个常用AutoML 框架介绍♀?♀AutoML 可以为预测建模问题自动找到数据准备、模型和模型超参数的最佳组合，本文整理了5个最常见且被熟知的开源AutoML 框架。AutoML框架执行的任务可以被总结成以下几点：预处理和清理数据。选择并构建适当的特征。选择合适的模型。优化模型超参数。设计神经网络的拓扑结构（如果使用深度学习）。机器学习模型的后处理。结果的可视化和展示。在本文中，我们将介绍以下5 个开源 autoML 库或框架：Auto-SklearnTPOTHyperopt SklearnAuto-KerasH2O AutoML1、Auto-SklearnAuto-sklearn 是一个开箱即用的自动化机器学习库。auto-sklearn 以 scikit-learn 为基础，自动搜索正确的学习算法并优化其超参数。通过元学习、贝叶斯优化和集成学习等搜索可以获得最佳的数据处理管道和模型。它可以处理大部分繁琐的工作，例如预处理和特征工程技术：One-Hot 编码、特征归一化、降维等。安装：#pippip install auto-sklearn#condaconda install -c conda-forge auto-sklearn因为进行了大量的封装，所以使用的方法sklearn基本一样，以下是样例代码：import sklearn.datasetsimport sklearn.metricsimport autosklearn.regressionimport matplotlib.pyplot as pltX, y = sklearn.datasets.load_diabetes(return_X_y=True)X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, random_state=1)automl = autosklearn.regression.AutoSklearnRegressor( time_left_for_this_task=120, per_run_time_limit=30, tmp_folder='/tmp/autosklearn_regression_example_tmp',)automl.fit(X_train, y_train, dataset_name='diabetes')代码地址：https://github.com/automl/aut...2、TPOTTPOT（Tree-based Pipeline Optimization Tool）是一个 Python 自动化机器学习工具，它使用遗传算法优化对机器学习的流程进行优化。它也是基于 Scikit-Learn 提供的方法进行数据转换和机器学习模型的构建，但是它使用遗传算法编程进行随机和全局搜索。以下是TPOT 搜索流程：安装：#pippip insall tpot#condaconda install -c conda-forge tpot样例代码：from tpot import TPOTClassifierfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.datasets import load_irisimport numpy as npiris = load_iris()X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64), iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42)tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42)tpot.fit(X_train, y_train)print(tpot.score(X_test, y_test))tpot.export('tpot_iris_pipeline.py')代码地址：https://github.com/EpistasisL...3、HyperOpt-Sklearn：HyperOpt-Sklearn 是 HyperOpt 的包装器，可以将 AutoML 和 HyperOpt 与 Scikit-Learn 进行整合，这个库包含了数据预处理的转换和分类、回归算法模型。文档中介绍说：它专为具有数百个参数的模型进行大规模优化而设计并允许跨多核和多台机器扩展优化过程。安装：pip install hyperopt样例代码：from pandas import read_csvfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_absolute_errorfrom hpsklearn import HyperoptEstimatorfrom hpsklearn import any_regressorfrom hpsklearn import any_preprocessingfrom hyperopt import tpe# load datasetiris = load_iris()X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64), iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42)model = HyperoptEstimator(regressor=any_regressor('reg'), preprocessing=any_preprocessing('pre'), loss_fn=mean_absolute_error, algo=tpe.suggest, max_evals=50, trial_timeout=30)model.fit(X_train, y_train)# summarize performancemae = model.score(X_test, y_test)print("MAE: %.3f" % mae)# summarize the best modelprint(model.best_model())代码地址：https://github.com/hyperopt/h...4、AutoKerasAutoKeras 是一个基于 Keras 的 AutoML 系统，只需几行代码就可以实现神经架构搜索（NAS）的强大功能。它由德克萨斯 A&M 大学的 DATA 实验室开发，以 TensorFlow的tf.keras API 和Keras为基础进行实现。AutoKeras 可以支持不同的任务，例如图像分类、结构化数据分类或回归等。安装：pip install autokeras样例代码：import numpy as npimport tensorflow as tffrom tensorflow.keras.datasets import mnistimport autokeras as ak#Load dataset(x_train, y_train), (x_test, y_test) = mnist.load_data()print(x_train.shape) # (60000, 28, 28)print(y_train.shape) # (60000,)print(y_train[:3]) # array([7, 2, 1], dtype=uint8)# Initialize the image classifier.clf = ak.ImageClassifier(overwrite=True, max_trials=1)# Feed the image classifier with training data.clf.fit(x_train, y_train, epochs=10)# Predict with the best model.predicted_y = clf.predict(x_test)print(predicted_y)# Evaluate the best model with testing data.print(clf.evaluate(x_test, y_test))代码地址：https://github.com/keras-team...5、H2O AutoML：H2O 的 AutoML 可用于在用户指定的时间限制内自动训练和调整许多模型。H2O 提供了许多适用于 AutoML 对象（模型组）以及单个模型的可解释性方法。可以自动生成解释，并提供一个简单的界面来探索和解释 AutoML 模型。安装：pip insall h2oH2O可以更详细的说是一个分布式的机器学习平台，所以就需要建立H2O的集群，这部分的代码是使用的java开发的，就需要安装jdk的支持。在安装完成JAVA后，并且环境变量设置了java路径的情况下在cmd执行以下命令：java -jar path_to/h2o.jar就可以启动H2O的集群，就可以通过Web界面进行操作，如果想使用Python代码编写，可以使用以下示例import h2oh2o.init()from h2o.automl import H2OAutoMLchurn_df = h2o.import_file('https://raw.githubusercontent.com/srivatsan88/YouTubeLI/master/dataset/WA_Fn-UseC_-Telco-Customer-Churn.csv')churn_df.typeschurn_df.describe()churn_train,churn_test,churn_valid = churn_df.split_frame(ratios=[.7, .15])churn_trainy = "Churn"x = churn_df.columnsx.remove(y)x.remove("customerID")aml = H2OAutoML(max_models = 10, seed = 10, exclude_algos = ["StackedEnsemble", "DeepLearning"], verbosity="info", nfolds=0)!nvidia-smiaml.train(x = x, y = y, training_frame = churn_train, validation_frame=churn_valid)lb = aml.leaderboardlb.head()churn_pred=aml.leader.predict(churn_test)churn_pred.head()aml.leader.model_performance(churn_test)model_ids = list(aml.leaderboard['model_id'].as_data_frame().iloc[:,0])#se = h2o.get_model([mid for mid in model_ids if "StackedEnsemble_AllModels" in mid][0])#metalearner = h2o.get_model(se.metalearner()['name'])model_idsh2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0])out = h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0])out.paramsout.convert_H2OXGBoostParams_2_XGBoostParams()outout_gbm = h2o.get_model([mid for mid in model_ids if "GBM" in mid][0])out.confusion_matrix()out.varimp_plot()aml.leader.download_mojo(path = "./")代码地址：https://github.com/h2oai/h2o-3总结在本文中，我们总结了 5 个 AutoML 库以及它如何检查机器学习进行任务的自动化，例如数据预处理、超参数调整、模型选择和评估。除了这5个常见的库以外还有一些其他 AutoML 库，例如 AutoGluon、MLBoX、TransmogrifAI、Auto -WEKA、AdaNet、MLjar、TransmogrifAI、Azure Machine Learning、Ludwig等。https://www.overfit.cn/post/a5f1160b23ad4fea914ed394254f845a作者：Abonia Sojasingarayar

上一篇：python将视频转换为音频

下一篇：Opencv学习指南入门（一）：基本图像操作

自动化的机器学习：5个常用AutoML 框架介绍相关文章