译者|布加迪评论|SunShujuan1.计划在建立任何机器学习模型之前,都需要坐下来计划一下你想让模型完成什么。在实际编码之前,重要的是要了解要解决的问题、数据集的性质、要构建的模型类型以及如何训练、测试和评估模型。你可以从一个简短的大纲开始,然后制定一个逐步的计划来展示你想要完成的事情。例如,在构建模型之前,您可以问自己:预测变量是什么?什么是目标变量?我的目标变量是离散的还是连续的?我应该使用分类还是回归分析?如何处理数据集中的缺失值?当在同一尺度上测量变量时,应该使用归一化还是标准化?您应该使用主成分分析(PCA)吗?如何调整模型中的超参数?如何评估模型以检测数据集中的偏差?在使用不同模型进行训练时,我应该使用集成然后执行集成平均吗?比如使用SVM、KNN或逻辑回归等分类器,然后对三个模型进行平均?如何选择最终型号?2.准备在执行之前,重要的是提前准备如何接近项目。这里有一些问题要问你自己:项目的规模是多少?是个人项目吗?我需要有队友吗?什么平台最适合构建模型?我应该使用RStudio还是Jupyter笔记本?该项目是否需要使用高级生产力工具,例如高性能计算资源,或AWS或Azure等云服务?项目完成的时间表是什么?3.生产(design,buildandexecutemodel)这个环节可以选择要使用的模型,比如linearregression,logisticregression,KNN,SVM,naiveBayesian,decisiontree,deeplearning,K-means,MonteCarloSimulation或时间序列分析等。此外,数据集必须分为训练集、验证集和测试集。超参数调整用于微调模型以防止过度拟合。执行交叉验证以确保模型在验证集上表现良好。微调模型参数后,将模型应用于测试数据集。模型在测试数据集上的性能大致相当于模型用于对未见数据进行预测时的预期性能。4.发布(实施、部署或展示您的结果)在此阶段,最终的机器学习模型投入生产以开始改善客户体验、提高生产力或决定借款人是否应获得银行的贷款批准,etc.在生产环境中评估模型以评估其性能。这可以通过使用A/B测试等方法将机器学习解决方案的性能与基线或控制解决方案的性能进行比较来完成。必须分析从实验模型转移到生产线实际性能过程中遇到的任何错误。然后可以使用它来微调原始模型。在一些大型项目中,数据科学家必须与其他公司员工、软件工程师或机器学习工程师协作部署模型(例如构建一个可以实时读取数据的基于Web的界面),将数据输入到模型,然后使用最终模型进行预测。总之,我们讨论了管理数据科学项目的四个基本步骤:计划、准备、生产和发布。适当的计划和准备不仅可以提高生产力,还有助于避免项目执行过程中可能遇到的潜在陷阱和障碍。原标题:4StepsforManagingaDataScienceProject,作者:BenjaminObiTayo
