当前位置: 首页 > 科技观察

机器学习:用Python进行分类_0

时间:2023-03-18 20:57:02 科技观察

假设你想教孩子们区分苹果和橙子。有多种方法可以做到这一点。您可以让孩子触摸这两种水果,让他们熟悉形状和柔软度。您还可以向她展示苹果和橙子的多个示例,以便他们可以直观地发现差异。这个过程的技术等价物被称为机器学习。机器学习教会计算机解决特定问题并根据经验变得更好。这里讨论的例子是一个分类问题,机器被赋予各种标记的例子,并期望使用它从标记的例子中获得的知识来标记未标记的例子。机器学习问题也可以采用回归的形式,在这种情况下,需要在给定已知样本及其解决方案的情况下预测给定问题的实值解决方案。分类和回归回归被广泛称为监督学习supervisedlearning。机器学习也可以是无监督的,其中机器识别未标记数据中的模式并形成具有相似模式的样本集群。机器学习的另一种形式是强化学习,机器通过犯错从环境中学习。分类分类是根据从已知点获得的信息预测一组给定点的标签的过程。与数据集关联的类别或标签可以是二元的或多变量的。例如,如果我们必须标记与句子相关的情绪,我们可以将其标记为积极、消极或中性。另一方面,我们必须预测水果是苹果还是橙子的问题会有二元标签。表1给出了分类问题的示例数据集。在此表中,最后一列LoanApproval的值预计将根据其他变量进行预测。在接下来的部分中,我们将学习如何使用Python训练和评估分类器。AgeCreditRatingJobOwnsHomeLoanApproval35GoodYesYes32PoorNo22FairNoNoNo42GoodYesYes表1分类器的训练和评估虽然这部分不涉及清洗数据的过程,但建议您阅读在将数据集输入分类器之前了解各种数据预处理和清理技术。要在Python中使用数据集,我们将导入pandas包和DataFrame结构。然后,您可以从各种分类算法中进行选择,例如决策树、支持向量分类器、随机森林、XGboost、ADAboost等。我们将了解随机森林分类器,它是使用多个决策树形成的集成分类器。fromsklearn.ensembleimportRandomForestClassifierfromsklearnimportmetricsclassifier=RandomForestClassifier()#creatingatrain-testsplitwithaproportionof70:30X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.33)分类器.fit(X_train,y_train)#在训练集上训练分类器y_pred=classifier.predict(X_test)#用未知数据评估分类器print("Accuracy:",metrics.accuracy_score(y_test,y_pred))#使用测试计划Actual值比较准确度虽然这个程序使用准确度作为性能指标,但应该使用指标的组合,因为当测试集不平衡时,准确度往往会产生不具有代表性的结果。例如,如果模型对每条记录给出相同的预测,并且用于测试模型的数据集是不平衡的,即数据集中的大多数记录与模型预测的类别相同,我们将获得较高的准确性。调优分类器调优是指修改模型的超参数值以提高其性能的过程。超参数是可以改变其值以改进算法的学习过程的参数。以下代码描述了随机搜索超参数调整。这里我们定义了一个搜索空间,算法将从中选择不同的值,并选择产生最佳结果的那个:fromsklearn.model_selectionimportRandomizedSearchCV#definethesearchspacemin_samples_split=[2,5,10]min_samples_leaf=[1,2,4]grid={'min_samples_split':min_samples_split,'min_samples_leaf':min_samples_leaf}classifier=RandomizedSearchCV(classifier,grid,n_iter=100)#n_iter表示从搜索空间中提取的样本数#结果。best_score和result.best_params_可用于获得模型的最佳性能,以及参数的最佳值每个预测给出一个预测。这个过程(仅考虑为每个预测投票的分类器数量)称为硬投票。软投票是一个过程,其中每个分类器产生给定记录属于特定类别的概率,并且投票分类器产生的预测是获得最大概率的类别。创建软投票分类器的代码片段如下:),('gb',gb_clf)],voting='soft')soft_voting_clf.fit(X_train,y_train)这篇文章总结了分类器的使用,调优分类器的过程以及组合多个分类器的结果。请以此为参考点详细探索每个区域。