将这些想法付诸实践的方法。1.HiddenTechnicalDebtinMachineLearningSystems链接:https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdfGoogle研究团队对反-创建数据科学工作流程时要避免的模式。本文借用了软件工程中技术债务的比喻,并将其应用到数据科学中。资料来源:DataBricks下一篇论文更详细地探讨了构建机器学习产品是软件工程的一个专门分支,该学科的许多课程也可以应用于数据科学。如何使用:遵循专家提供的实用技巧,简化开发和生产。2.Software2.0(软件2.0)链接:https://medium.com/@karpathy/software-2-0-a64152b37c35AndrejKarpathy的经典文章清楚地表达了一种范式,即机器学习模型是代码基于数据的软件应用程序.如果数据科学是软件,我们会构建什么?BenBengafort在一篇颇具影响力的博文“数据产品时代”中探讨了这个问题。(https://districtdatalabs.silvrback.com/the-age-of-the-data-product)数据产品代表ML项目的运营阶段。如何使用:详细了解数据产品如何适应模型选择过程。3.BERT:BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding链接:https://arxiv.org/abs/1810.04805在这篇论文中,谷歌研究团队提出了一种自然语言处理模型,代表了大幅提升文本分析能力。虽然对于为什么BERT如此有效存在一些争论,但它也暗示我们在机器学习领域会发现一些成功的方法,而无需完全理解它是如何工作的。与大自然一样,人工神经网络仍然充满神秘色彩。如何使用:BERT论文可读性很强,包括一些建议的默认超参数设置以供在初始阶段使用。无论您是否是NLP新手,都可以查看JayAlammar的“查看BERT的初学者指南”,其中解释了BERT的功能。另请查看ktrain-Keras的一个组件(也用于TensorFlow),可帮助您在工作中毫不费力地实施BERT。ArunMaiya开发了这个强大的库来提高NLP、图像识别和图论方法的认知速度。4.LotteryTicketHypothesis:Findingasparseandtrainableneuralnetwork(TheLotteryTicketHypothesis:FindingSparse,TrainableNeuralNetworks)链接:https://arxiv.org/abs/1803.03635当NLP模型越来越大时(见175billionparametersofGTP-3),人们努力以正交方式构建更小、更快、更高效的神经网络。这样的网络运行时间更短,训练成本更低,并且需要更少的计算资源。在这篇开创性的论文中,机器学习天才JonathanFrankle和MichaelCarbin概述了裁剪方法,表明稀疏子网络可以在最初明显更大的神经网络中实现类似的性能。NolanDay的“彩票分解假说”指的是彩票与效力有非常密切的联系。这一发现在存储、运行时和计算性能方面提供了许多优势,并获得了ICLR2019的最佳论文奖。进一步的研究建立在这项技术的基础上,证实了它的适用性,并将其应用于原始稀疏网络。如何使用:考虑在生产前修剪神经网络。剪枝网络权重可以减少90%以上的参数,同时仍能达到与原始网络相同的性能。另请查看BenLorica的NeuralMagic数据交换播客剧集,这是寻求在灵活的用户界面上使用修剪和量化等技术简化稀疏性获取的开始。(https://neuralmagic.com/about/)5.Releasingthedeath-gripofnullhypothesisstatisticaltesting(p<.05)(Releasingthedeath-gripofnullhypothesisstatisticaltesting(p<.05))链接:https://www.researchgate.net/publication/312395254_Releasing_the_death-grip_of_null_hypothesis_statistical_testing_p_05_Applying_complexity_theory_and_somewhat_precise_outcome_testing_SPOT假设检验早于计算机的使用。考虑到与此方法相关的挑战(例如,即使是统计学家也发现解释p值几乎是不可能的),可能需要时间来想出替代方法,例如略微精确的结果测试(SPOT)如何使用xkcd的显着性:请参阅此“DeathofHypothesisStatisticalTesting”博客文章,一位沮丧的统计学家概述了与传统方法相关的一些挑战,并解释了利用置信区间的替代方法。(https://www.datasciencecentral.com/profiles/blogs/the-death-of-the-statistical-test-of-hypothesis)这5篇论文可以帮助你更深入地理解数据科学!
