当前位置: 首页 > 科技观察

PyCaret:机器学习模型开发变得简单

时间:2023-03-17 01:29:25 科技观察

在当今快节奏的数字世界中,组织使用低代码/无代码(LC/NC)应用程序来快速构建新的信息系统。本文介绍PyCaret,这是一个用Python编写的低代码机器学习库。PyCaret是R编程语言中Caret(ClassificationAndRregressionTraining的首字母缩写)包的Python版本,具有许多优点。提高生产力:PyCaret是一个低代码库,可让您提高生产力。由于花在编码上的时间更少,您和您的团队现在可以专注于业务问题。易用性:这个易于使用的机器学习库将帮助您以更少的代码行执行端到端的机器学习实验。商用:PyCaret是一种商用解决方案。它允许您从您选择的笔记本环境中快速高效地制作原型。可以在Python中创建一个虚拟环境,执行以下命令安装完整版PyCaret:pipinstallpycaret[full]机器学习从业者可以使用PyCaret进行分类、回归、聚类、异常检测、自然语言处理、关联规则挖掘和时间序列分析。使用PyCaret构建分类模型本文介绍了如何使用PyCaret从PyCaret的数据仓库中获取Iris数据集来构建分类模型。我们将使用GoogleColab环境使事情变得简单,并按照下面提到的步骤进行操作。步骤1首先,通过以下命令安装PyCaret:pipinstallpycaret步骤2接下来,加载数据集,如图2所示:从pycaret.datasets加载数据集importget_datadataset=get_data('iris')(or)importpandasaspddataset=pd.read_csv('/path_to_data/file.csv')步骤3现在设置PyCaret环境,如图2:PyCaretenvironmentsetupfrompycaret.classificationimport*clf1=setup(data=dataset,target='species')PyCaret环境搭建结果使用PyCaret搭建任何类型的模型,环境搭建都是最重要的一步。默认情况下,setup()函数接受参数数据(Pandas数据框)和目标(指向数据集中的类标签变量)。setup()函数的结果如图3所示。setup()函数默认将70%的数据拆分为训练集,30%作为测试集,并进行数据预处理,如图3所示。Step4接下来,寻找最佳模型,如图4所示:寻找最佳模型best=compare_models()默认情况下,compare_models()应用十折交叉验证,计算不同的性能指标,如Accuracy、AUC、Recall、Precision、F1Score、Kappa和MCC,如图4所示。我们可以通过将tubro=True传递给compare_models()函数来尝试所有分类器。第5步现在创建模型,如图5所示:可以拟合模型。步骤6下一步是微调模型,如图6所示。调整模型tuned_lda=tune_model(lda_model)调整超参数可以提高模型的准确率。tune_model()函数将线性判别分析模型的准确率从0.9818提高到0.9909,如图7所示。调优模型详情步骤7接下来就是进行预测,如图8:Predictionsusingthetunedmodelpredictions=predict_model(tuned_lda)predict_model()函数用于对测试数据中存在的样本进行预测。步骤8现在绘制模型性能,如图9所示:评估和绘制模型性能——混淆矩阵evaluate_model(tuned_lda)evaluate_model()函数用于以最小的努力开发不同的性能指标。您可以尝试它们并查看输出。