本文转载自公众号《读书芯》(ID:AI_Discovery)从开车到识别语音+翻译,机器学习通过软件预测不可预测的现实世界,正在该领域掀起风暴的人工智能。那么,什么是机器学习?机器学习是教计算机系统使用反馈的旧数据进行预测的过程,基本上是训练计算机根据过去的数据预测未来的数据。这些预测可以像识别照片中的动物是猫还是狗一样简单,也可以像准确识别语音以生成网站字幕或运行视频或音乐一样困难。机器学习的类型机器学习大致可以分为两类:监督学习和非监督学习。监督学习是通过示例教授机器的方法。这些机器接受了大量数据的训练,因此它们学会识别模式,并可以根据训练数据识别和区分数据。另一方面,无监督学习是使用算法来识别数据集中的模式,其中数据点既没有分类也没有标记。算法从数据集中提取有用的信息或特征来分析其底层结构,并相应地对数据进行分类。让我们看看如何使用监督学习来构建机器学习模型。第一步:熟悉数据任何机器学习项目的第一步都是熟悉数据。为此,您可以使用Pandas库。Pandas是数据科学家探索和操作数据的主要工具。Pandas库中最重要的是DataFrame。DataFrame相当于一个保存数据的表,类似于SQL数据库中的表。Pandas具有处理DataFrame中数据的强大方法。以加州房价数据为例。(文件路径:../input/california-housing-prices/housing.csv)使用以下命令加载和浏览数据:Step2:选择建模数据研究DataFrame的数据后,你会发现它有10列,其中9列为数值数据,“Oceanproximity”列为字符串类型数据。我们可以仅使用数值数据来构建任何模型,因此我们可以简单地删除“Oceanproximity”列。然后删除空值列,如下:第三步:选择预测目标(Y)和特征(X)接下来选择预测目标(Y),也就是“median_house_value”列。因此,将Y指定为“median_house_value”。其余特征为X。从数据集中删除“median_house_value”列,并将其余列分配为X,如下所示:第4步:构建模型使用scikit-learn库创建模型。该库在代码中被编写为sklearn。当谈到对存储在DataFrames中的数据类型进行建模时,最流行的库是Scikit-learn。建立和使用模型的步骤是:定义:什么类型的模型?是线性回归还是其他?拟合:从现有数据中获取模式(建模的核心)。Predict:预测目标Evaluate:确定模型预测的准确性。现在,使用scikit-learn(sklearn)定义线性回归模型并将其与特征和目标变量进行拟合,并获得“median_house_value”的预测值。导入以下库以使用scikit-learn(sklearn)。为线性回归模型创建一个变量。并且还使用train_test_split函数将数据拆分为训练数据和测试数据。在这里,我使用25%的数据进行测试,剩下的75%用于训练模型。第5步:拟合模型将线性回归模型拟合到训练数据。完成后,predict函数通过X的测试值对房价进行预测,然后使用scoring函数通过模型得到预测值的准确率,如下图:可以看出,模型预测的正确率为约66%。第六步:画图现在用X检验值和预测值(输出)画图,如下:一个拟合模型就完成了,我们可以用它来预测了。在实际使用中,我们可以对即将上市的新房进行预测。这个例子是关于如何在数据集上拟合线性回归模型并用它来预测房价。我们还可以将相同的数据拟合到决策树或支持向量机中,并比较哪个模型的预测效果更好。希望这篇文章能帮助那些试图建立他们的第一个机器学习线性回归模型的人。
