当前位置: 首页 > 科技观察

Github最新Top5开源机器学习项目!数据计算速度提升80倍!

时间:2023-03-12 16:30:21 科技观察

从这5个具有挑战性的开源机器学习项目开始2020年吧!这些机器学习项目涵盖了广泛的领域,包括Python编程和NLP。越来越多的人正在寻找一种过渡到数据科学的方法。无论是刚毕业的大学毕业生、业内相对较新的参与者、中级专业人士,还是只是对机器学习感兴趣的人,每个人都想分一杯羹。我挑选了5个开源机器学习项目(创建于2020年1月),让您熟悉最新的最新框架和库。您将看到从自然语言处理(NLP)到Python编程的所有内容。1.Reformer——PyTorch中的高效迁移Transformer架构改变了自然语言处理(NLP)的格局。它催生了许多NLP框架,如BERT、XLNet、GPT-2等。但有一个问题,我相信你们中的大多数人都会遇到这个问题——这些变压器驱动的模型非常庞大。它们取得了最先进的结果,但价格太高,而且对于大多数想要学习和实施它们的人来说是遥不可及的。该项目的作者提供了一个简单但有效的示例以及完整的代码来帮助您构建自己的模型。2.PandaPy——最流行的Python库我上周发现了PandaPy,并且已经在我当前的项目中使用它。这是一个迷人的Python库,具有成为主流的巨大潜力。如果你正在做一个混合数据类型(int、float、datetime、str等)的机器学习项目,你应该尝试PandaPy而不是Pandas。对于这些数据类型,它消耗的内存比Pandas少三分之一!以下是您会发现有趣的三个关键领域(我从PandaPyGitHub存储库逐字总结了这些要点):1)对于小型数据集(即加号、多号、对数)的简单计算,PandaPy比Pandas快25-80倍2)PandaPy在小型数据集上的表函数(即group、pivot、put、join、fill、fill)方面比Pandas快5到100倍。3)对于大多数小数据用例,PandaPy比Dask、ModinRay和Pandas更快3.GoogleEarthEngine-300多个用于分析地理空间数据的Jupyter笔记本多棒的GitHub存储库!我有很多有抱负的数据科学家在社交平台上与我联系,询问如何开始地理空间分析。这是一个非常有趣的领域,提供PB级的数据。我们只需要一种结构化的方式来清理和分析它。这个惊人的存储库是300多个JupyterNotebook的集合,其中包含使用GoogleEarthEngine数据的示例。这些笔记本依靠三个Python库来执行代码:EarthEnginePythonAPIFoliumGeehydroGitHub存储库包含大量带有Python代码的示例,可帮助新手入门。4.AutomatedVisualAnalyticsAutomatedVisualAnalytics这是又一个适合新手的高质量数据可视化思路。自动化数据探索步骤的想法已经流传了一段时间,但没有任何实质性的框架。自动化可视化分析旨在使可视化分析由AI提供动力和自动化。5.FastNeptune——加速机器学习项目可重复性是当今任何机器学习项目的一个重要方面,无论是在研究领域还是在工业领域。我们需要跟踪执行的每个测试、每次迭代、机器学习模型的每个参数以及结果。FastNeptune库使我们能够快速记录开始机器学习实验所需的所有信息。换句话说,FastNeptune是您在阅读上一段时可能提出的可重复性问题的答案。以下是FastNeptune用来帮助我们进行快速实验的功能:有关运行代码的计算机的元数据,包括运行实验的笔记本电脑的操作系统和操作系统版本要求最先进的技术仍在继续以快速的速度发展,对于新来者来说,跟上它可能会变得不知所措。保持饥饿!