当前位置: 首页 > 后端技术 > Python

Python的Sklearn库中的数据集

时间:2023-03-26 13:23:05 Python

一、Sklearn简介scikit-learn是用Python语言开发的机器学习库,一般简称为sklearn,目前被认为是通用机器学习中实现比较完善的库算法库。它的完善不仅在于众多算法的实现,更在于大量详尽的文档和实例。它的文档很容易理解,可以作为机器学习教程来学习。2.Sklearn数据集的种类sklearn数据集有很多种小数据集(打包数据集):sklearn.datasets.load_在线下载数据集(DownloadedDataset):sklearn.datasets.fetch_生成数据集(GeneratedDataset):sklearn.datasets.make_Datasetinsvmlight/libsvmformat:sklearn.datasets.load_svmlight_file(...)从网上购买的data.org下载的数据集:sklearn.datasets.fetch_mldata(...)3.Sklearn数据集1.数据集相关工具clear_data_home清除指定目录get_data_home获取sklearn数据根目录load_files加载类别数据dump_svmlight_file将文件格式转换为svmlight/libsvmload_svmlight_file加载文件并进行格式转换load_svmlight_files加载文件并进行格式转换2.相关文本分类聚类数据setfetch_20newsgroups新闻文本分类数据集fetch_20newsgroups_vectorized新闻文本矢量化数据集fetch_rcv1路透社英文新闻文本分类数据集fetch_lfw_pairspeople人脸数据集fetch_lfw_people人脸数据集fetch_olivetti_faces人脸数据集3.图像数据集load_sample_image图像数据集load_sample_images图像数据集load_digits手写数据集4.医疗数据集load_breast_cancer乳腺癌数据集load_diabetes糖尿病数据集load_linnerud体能训练数据集5.其他数据集load_wine葡萄酒数据集load_iris虹膜数据集load_boston波士顿住房数据集fetch_california_housing加州住房数据集fetch_kddcup99入侵检测数据集fetch_species_distribution物种分布数据集fetch_covtype森林植被数据集load_mldatamldata.org数据集在线下载