当前位置: 首页 > 科技观察

机器学习:具体有哪些分类?项目的流程是什么?

时间:2023-03-16 18:07:54 科技观察

机器学习和人工智能应该是近几年最火的关键词之一。今天我将分享一些机器学习的基础知识。如果有什么不对的地方,请指正。01机器学习的定义在谈机器学习之前,我们先明确一下什么是人类的学习行为?可以得出结论,人类从历史经验中获取规律,并将其应用到新的相似场景中,这就是人类的学习行为。相应的,机器学习就是让机器去训练和学习,让机器从大量的数据中找到数据中固有的特征,从而对新的事物做出判断。02机器学习的分类机器学习有哪些分类?根据不同的分类方法,有不同的细分类别。整理后主要有以下概览图:(1)按照学习目标的分类,机器学习目标有哪些?一般来说,我们希望通过机器学习达到的结果的最终形式是什么。根据学习目标,主要可以分为三类:回归问题、分类问题和排序问题。回归问题:解决的是目标是连续变量的问题。例如,如果你想根据身高预测体重,体重是一个连续变量。分类问题:解决的是目标是离散标签的问题。例如,预测一个人是男性还是女性。排序问题:模型的输出是经过排序的对象列表。(2)根据训练数据的特征进行分类上面说过,机器学习需要基于训练数据(否则机器无法学习)。根据训练数据的特点,主要分为以下两类:监督学习:利用已有的训练样本进行训练,得到一个最优模型,然后利用这个模型将所有的输入映射到对应的输出,并进行简单的判断来达到预测和分类的目的,它还具有对未知数据进行预测和分类的能力。常见的监督算法包括:线性回归算法、BP神经网络算法、决策树、支持向量机、KNN等。无监督学习:训练样本的标签信息未知。目标是通过对未标记训练样本的学习,揭示数据的内在本质和规律,为进一步的数据分析提供依据。这类学习任务是研究最多、应用最广泛的。它是“集群”。聚类的目的是将相似的东西聚集在一起,主要是通过计算样本和组之间的距离得到的。深度学习和PCA都属于无监督学习的范畴。常见的无监督算法包括:密度估计、异常检测、层次聚类、EM算法、K-Means算法、DBSCAN算法等。(3)根据模型的复杂程度分类根据模型的复杂程度,主要分为分为两类:线性模型和非线性模型。线性模型:决策边界是一条直线。例如逻辑回归模型。非线性模型:决策边界是非线性的。例如神经网络模型。(4)按模型功能分类按模型功能分类,主要分为判别模型和生成模型。判别模型:直接从数据中学习决策函数f(x)或条件概率分布P(y|x)进行预测的模型。它关心的是对于给定的输入x应该预测什么样的输出y。常见的k近邻法、感知器、决策树、逻辑回归、线性回归、最大熵模型。生成模型:从数据中学习输入输出联合概率分布P(x,y),然后计算后验概率分布P(y|x)进行预测的模型。常见的生成模型朴素贝叶斯、隐马尔可夫(em算法)。03机器学习的基本过程对于一个机器学习项目,主要过程有以下概述:(1)数据预处理数据清洗是检测并去除数据集中的噪声数据和无关数据,处理缺失数据,去除空白数据领域和知识背景下的白噪声。(2)数据切分在机器学习中,通常将所有数据分为三部分:训练数据集、验证数据集和测试数据集。它们的作用是训练数据集(traindataset):用于构建机器学习模型验证数据集(validationdataset):辅助构建模型,用于在构建过程中评估模型,为模型提供无偏估计,进而调整模型Hyperparameter测试数据集(testdataset):用于评估训练好的最终模型在如何拆分数据上的表现,稍后分享。(3)特征工程特征构建是指从原始数据中人为地找出一些具有物理意义的特征。观察原始数据需要时间,思考问题的底层形式和数据结构,数据敏感性和机器学习中的实践经验可以帮助特征构建。关于机器学习,先分享这些。欢迎大家继续关注~