大盘点：Github8月值得关注的7个数据科学项目

时间：2023-03-14 10:37:39 科技观察

你准备好在机器学习的道路上再迈出一大步了吗？使用实验数据集、流行的数据科学库和框架是一个很好的开始，但如果你想在竞争中脱颖而出，你必须突破并让自己与众不同。最好的方法是使用数据科学领域的最新技术来完成项目。想成为计算机视觉领域的专家？然后学习最先进的物体检测算法。如果您想在自然语言处理(NLP)领域有所作为，请了解Transformer模型的各种特性和分支。关键是，时刻准备好并愿意钻研最新的数据科学技术。数据科学是发展最快的领域之一，作为数据科学家，我们需要不断学习和成长。本文带你了解2019年8月在GitHub上创建的7个数据科学项目。我选择的项目范围非常广泛，涵盖了从机器学习到强化学习的多个领域。本文将这些数据科学项目分为三类：机器学习项目深度学习项目编程项目最佳数据科学项目"http://p9.pstatp.com/large/pgc-image/bdc119a2c04647449f7e723dafb1d748"width="1"height="1">机器学习项目pyforest——一行代码导入所有Python数据科学库。我非常喜欢这个Python库。正如标题所说，所有常用的数据科学库都可以通过一个pyforest库导入。查看作者从图书馆的Github存储库中摘录的示例：Excited?Pyforest目前包括pandas、NumPy、matplotlib等数据科学库。只需调用pipinstallpyforest在您的机器上安装该库，您就可以通过一行代码导入所有流行的Python数据科学库。frompyforestimport*太棒了！您会像我一样喜欢使用它。HungaBunga–使用sklearn库构建机器学习模型的另一种方式如何从构建的机器学习模型中选择最合适的？如何确保正确的超参数起作用？这些都是数据科学家需要回答的关键问题。HungaBunga项目允许用户比大多数其他数据库更快地找到答案。它使用所有可能的超参数运行sklearn库中的所有模型（是的，全部！），然后通过交叉验证对模型进行排名。以下是导入所有模型（包括分类和回归）的方法：fromhunga_bungaimportHungaBungaClassifier,HungaBungaRegressor查看以下文章以全面讨论监督式机器学习算法：深入了解常见机器学习算法（使用Python和R）TheBehaviorSuite（学习项目DeepMind发布的用于强化学习的bsuite）最近传出消息，DeepMind连年亏损。但必须承认，这家公司在强化学习研究上还是遥遥领先的。他们在这个领域投入了大量的人力物力，认为强化学习是人工智能的未来。下面介绍他们最新的开源产品——bsuite。该项目汇集了许多旨在了解强化学习对象核心性能的实验结果。作者喜欢这个研究领域，因为它必然努力实现两个目标（每个Github存储库一个）：收集有价值和可推广的项目，这些项目捕捉在设计高效和通用机器学习算法时遇到的挑战。关键的问题。通过对象在通用尺度上的表现来研究对象的行为。这个Github存储库详细解释了如何使用bsuite。读者一定听说过BERT。它基于Transformer架构，是自然语言处理（NLP）领域最流行的框架，并且正在被越来越广泛地使用。但要注意：它可能需要大量资源才能运行。那么数据科学家如何在自己的机器上运行BERT呢？更进一步，使用DistilBERT！DistilBERT是Distilled-BERT的简称，由PyTorch转换框架团队开发。它是一种基于BERT架构构建的小型且廉价的Transformer模型。开发团队声称DistilBERT的运行速度比BERT快60%，而性能与BERT的差距在5%以内。这个Github存储库描述了DistilBERT和Python代码如何协同工作。您可以点击下面的链接了解更多关于PyTorch-Transformers框架以及如何在python中使用它的信息。Pytorch-Transformers简介：一个非常牛逼的NLP库（附Python代码）ShuffleNet系列-移动设备上极其高效的卷积神经网络接下来是计算机视觉项目！ShuffleNet是一种计算效率极高的卷积神经网络架构，适用于计算能力有限的移动设备。这个Github仓库包含以下ShuffleNet模型（是的，不止一个）：ShuffleNet:AnextremelyefficientconvolutionalneuralnetworkformobiledevicesShuffleNetV2:PracticaladvisesforefficientCNNarchitecturedesignShuffleNetV2+:AnenhancedversionofShuffleNetV2.Large:ShuffleNetV2的加深OneShot版本：通过均匀采样研究单通道单样本神经架构DetNAS：支持对象检测技术研究RAdam–提高学习率方差目前，发布不到两周的RAdam项目已经收到1200多颗星评价。足以证明这个仓库的强大！RAdam的开发者在他们的论文（https://arxiv.org/pdf/1908.03265.pdf）中表明，深度学习技术的收敛问题是由于模型训练初期，自适应学习率的方差太大大的。RAdam是Adam的新版本，可以纠正自适应学习率的变化。这个版本是对普通Adam优化器的真正改进，改善了方差问题。RAdam与A??dam和SGD在处理不同学习率时的性能比较（x轴代表训练epoch的数量）：请务必查看以下机器学习优化指南（其中包含有关Adam的相关内容）：机器学习中的梯度下降算法（和变量类型）编程项目ggtext简介-ggplot2文本渲染的更新版本这个项目对社区中的所有R用户都非常有用，尤其是那些经常使用ggplot2包的用户（几乎每个人）。Ggtext包使用户能够在生成的图像上呈现富文本。以下是一些可以使用ggtext完成的事情：生成一个名为element_markdown()的新主题元素，将文本呈现为markdown或HTML在轴中插入图像（如下所示）使用geom_richtext()函数创建markdown/HTML标签（如如下图所示）这个GitHub存储库包含一些直观的示例，读者可以在自己的机器上重复这些示例。Ggtext目前无法从CRAN获得，用户需要使用以下命令从GitHub下载并安装它：

上一篇：如何参观“高科技”庞贝古城？

下一篇：基于Scrapy框架的微博评论爬虫实战

大盘点：Github8月值得关注的7个数据科学项目相关文章