当前位置: 首页 > 网络应用技术

数据科学系列:Sklearn库主模块功能简介

时间:2023-03-06 11:58:18 网络应用技术

  简介:作为数据分析师,当我第一次接触到三个剑客(numpy,pandas,matplotlib)的数据分析时,我觉得每个库的功能都非常复杂,因此几乎澄清了每个模块的功能后,它是一个接一个地启动的。各个教程(文本末尾的链接);后来,在与机器学习库Sklearn联系后,我发现三只剑客不过是这样。比较发现,无论是模块的大小还是功能段的大小,Pyspark再次完成了Sklearn。最近,我逐渐进入了深度学习(Tensorflow框架),最后意识到Python数据科学库不是最大的,只有更大...

  鉴于机器学习本身的强大理论以及Sklearn库的强大API函数,自然而然地不总结一个教程。因此,这一次,只有它们的子模块被梳理和介绍,以便它们以便它们可以通过本文快速通过Sklearn建立宏观框架。

  Sklearn是Scikit-Learn,是Python的机器学习库。它基于数据科学软件包,例如numpy,scipy,matplotlib等。,非常强大。Sklearn版本的当前版本是0.23.在Pytorch,Tensorflow和其他框架中,Sklearn是Python传统机器学习的首选,也没有其他竞争对手。

  本文将围绕以下图中的主要意见进行介绍。

  通常使用模块的Sklearn列表

  Sklearn为初学者提供了一些经典数据集,这些数据集可以快速构建机器学习任务,并通过这些数据集比较模型性能。数据集主要基于两个经典任务的分类和回归。对于不同的需求,常用的数据集如下:

  值得指出的是,除了负载系列经典数据集外,Sklearn还支持自定义数据集Make Make系列和下载数据集Fead系列(加载系列要安装Sklearn库,还需要添加fetch),这是更多)更多。学习任务方案提供了便利。

  Sklearn中的每个模型都有标准化的数据输入和输出格式。通常,np.aray和pd.dataframe是标准格式,因此某些字符串的离散标签不能直接用于模型训练。在相同的时间表确保培训准确性时,通常会准备数据。例如,当训练被用作测量时,必须考虑除臭问题。为此,Sklearn提供了一些常用的数据预处理功能,并且常用的包括:

  机器学习中有一条经典的行:数据和功能决定了学习的上限,模型和算法只是接近此上限。可以看出,功能工程在机器学习中的重要性。从总的来说,传统机器学习中的特征项目主要包括需求的两个方面:

  这是几种功能选择方法的简要介绍:

  模型选择是机器学习的重要组成部分。涉及的操作包括数据集切割,参数调整和验证。相应常用的功能包括:

  不同的测量指标可以学习不同的最佳模型。对于不同类型的任务,Sklearn提供了各种测量指标,包括:

  在维度期间,这也是一种无监督的学习。当特征维度太大时,可以通过矩阵的QR降低,以减少原始信息尽可能保留时的尺寸。它通常用于图像数据预处理,并且减小尺寸后尺寸降低的特征。与原始特征没有直接连接,因此不再解释模型训练。

  经典是一项典型的无监督学习任务,但它在实际应用中也是一个更普遍的要求。没有提供样本的真实标签,样本是基于某些功能来收集样品的。三种主要类型:

  分类和回归任务是机器学习中的经典场景,属于监督和学习。经典学习算法主要包括5种类型:

  除了用于分类任务的简单性贝叶斯外,其他四个模型都是可以分类或返回的五个模型。

  当难以满足需求的基本学习模型的表现时,集成学习就会变得成立。顾名思义,学习整合了多个基础学习设备的结果以收集最终结果。学习主要包括3个流:

  Sklearn中常用模块的上述大致简短介绍,基本上涵盖了常用的模型和辅助功能,这足以让Sklearn开始。。当然,更多的深度学习仍需要咨询特殊教程。

  原始:https://juejin.cn/post/7096858464974012452