对于机器学习,它不使用“样本遍布”的基本理论,而只是采用了一种验证方法来确定模型的有效性。为了在捕获法律的同时捕获法律,可以将“略有不同”的错误分为可获得的当前数据,这些数据可以获取到培训师(火车集)和测试集(测试集),在培训集中构建模型,然后将测试集的数据带入观察模型预测结果与测试集中的实际结果之间的差异。
该过程实际上是模拟真实数据后的模型预测。该模型可以预测未知标签的数据集,该标签是模型的核心值。在这个时光
如果该模型可以对测试集具有良好的预测效果,我们“简单而粗鲁”认为该模型可以在实际未来的未知数据集上表现良好。
一般过程可以由下图表示。
创建一个指示代表数据集的数据集的子类。在创建数据集的过程中,GetItem方法和LEN方法必须重写。GetItem方法输入索引后返回相应的功能和标签,LEN方法返回数据集的数据总数。
当然,在初始化过程中,我们还可以根据情况输入数据集基本属性的相关内容,包括数据集的特征,标签,大小等,具体取决于情况。
目前,该划分的结果是一个映射对象,仅数据集和索引的两个属性。其中,数据集属性用于查看原始数据集对象。索引属性用于查看索引(邮政数据集的每个数据的序列编号的序列号。
市场上有许多教科书在Pyctorch深度学习建模过程中介绍数据集分区过程。建议在特定于scikit-as中使用train_test_split函数。
此功能可以非常方便地完成数据集剪辑,但是此方法只能用于单个计算机运行的数据,并且在切割点之后,必须调用数据集和数据装载机模块以进行数据包装和加载。事实,将有许多存储空间和计算资源的额外职业。当进行大规模数据训练时,影响会非常明显(当然,数据也可能太大并且不能在本地运行)。
因此,为了更好地适应深度学习的真实应用程序方案,当使用诸如数据切割之类的常见函数时,该功能使用Pytorch本地函数的优先级和类别> scikit-obln的优先级,> scikit-obln根据张量及其常见方法是函数
计算培训收集MSE
计算测试集MSE