2019年前5大数据科学GitHub项目和Reddit主题

时间：2023-03-12 20:32:36 科技观察

没有比GitHub和Reddit更适合数据科学的了。GitHub是唯一的一站式代码托管平台，擅长简化团队成员之间的协作流程。大多数领先的数据科学家和组织都使用GitHub来开源他们的库和框架。这样，我们不仅可以及时了解该领域的最新发展，还可以将模型复制到自己的机器上。Reddit讨论与TheSpectrum的目的相同，领先的研究人员和聪明的头脑聚集在一起讨论和推断机器学习和数据科学的最新主题和突破。从这两个平台，我们可以学到很多东西。本文介绍了2019年以来最好的开源GitHub存储库和Reddit讨论GitHub项目1.Flair（最先进的NLP库）（https://github.com/zalandoresearch/flair）2018年是自然语言处理（NLP）的分水岭).像ELMo和谷歌的BERT这样的库是突破性的版本。正如SebastianRuder所说，“NLP的ImageNet时刻已经到来”！Flair是另一个优秀的NLP库，易于理解和实现。它最好的部分是什么？这是非常先进的。Flair由ZalandoResearch基于PyTorch开发并开源。该库在广泛的NLP任务上优于以前的方法：这里，F1是准确性评估指标。2.face.evoLVe–高性能人脸识别库(https://github.com/ZhaoJ9014/face.evoLVe.PyTorch)现在在数据科学领域，应用于计算机视觉的人脸识别算法比比皆是。face.evoLVe是一个基于PyTorch的“高性能人脸识别库”。它为人脸相关的分析和应用提供了全面的功能，包括：人脸对齐（检测、地标定位、仿射变换）数据预处理（例如增强、数据平衡、归一化）各种骨干网（例如ResNet、DenseNet、LightCNN、MobileNet等）)各种损失（例如，Softmax、Center、SphereFace、AmSoftmax、Triplet等）·一系列提高性能的技巧（例如，训练改进、模型调整、知识蒸馏等）。该库是实际使用和部署高性能深度识别的必备工具，尤其适用于研究人员和工程师。3.YOLOv3(https://github.com/wizyoung/YOLOv3_TensorFlow)YOLO是用于执行对象检测任务的极其快速和准确的框架。它于三年前推出，此后经历了数次迭代，一次比一次更好。这个存储库是在TensorFlow中实现的YOLOv3的完整流水线，可以在数据集上使用它来训练和评估您自己的对象检测模型。以下是该存储库的主要亮点：·高效的tf.data管道·权重变换器·极快的GPU非最大抑制（非最大抑制）·完整的训练管道·通过K-means算法选择先前的锚点Box4.FaceBoxes：高精度CPU实时人脸检测器(https://github.com/zisianw/FaceBoxes.PyTorch)计算机视觉中最大的挑战之一是管理计算资源。不是每个人都有多个GPU。这是一个很难克服的障碍。增强的FaceBoxes。这是一种新颖的人脸检测方法，使用CPU在速度和准确性方面都表现出令人印象深刻的性能。此存储库在PyTorch中运行，用于FaceBoxes。它包含用于安装、训练和评估人脸检测模型的代码。停止抱怨缺乏计算能力-立即尝试FaceBoxes！5.GoogleAI的Transformer-XL(https://github.com/kimiyoung/transformer-xl)这是另一个改变游戏规则的NLP框架。看到它有GoogleAI团队的支持也就不足为奇了（他们也是提出BERT的同一群人）。长程依赖一直是NLP中的一个棘手问题。即使在去年取得了重大进展，这个概念也没有得到很好的解决。使用了RNN和vanillatransformer，但它们还不够好。GoogleAI的Transformer-XL填补了这一空白。以下是有关此库的一些要点：Transformer-XL能够学习长距离依赖性，比RNN长约80%，比VanillaTransformer长450%。即使在计算方面，Transformer-XL也比VanillaTransformer快1800倍！由于长期依赖建模，Transformer-XL在长序列中具有更好的混淆性能（预测样本更准确）。此存储库包含TensorFlow和PyTorch中Transformer-XL的代码。看看您是否可以匹配（甚至击败）NLP中最先进的结果！Reddit热帖1.TheDataScientististheNewBusinessAnalyst(https://www.reddit.com/r/datascience/comments/aj6ohk/data_scientist_is_the_new_business_analyst/)不要被标题中的热门话题所迷惑。这是对数据科学现状及其在世界范围内的教学方式的严肃讨论。总是很难在不同的数据科学角色上确定特定的标签。功能和任务各不相同——那么谁应该确切地学习什么？本主题探讨教育机构如何仅涵盖基本概念并声称教授数据科学。对于所有处于早期学习阶段的人-请务必浏览此讨论。您将了解很多关于招聘人员如何看待持有证书或学位并声称自己是数据科学家的潜在候选人的事件。当然，您将了解业务分析师的工作以及它与数据科学家的区别。2.数据科学中让您大吃一惊的一件事是什么(https://www.reddit.com/r/datascience/comments/aczhjc/what_is_something_in_ds_that_has_blown_your_mind/)数据科学中让您大吃一惊的一件事是什么？此讨论线程中有许多令人难以置信的理论和事实，可以让您参与其中。以下是该主题的几个很酷的答案：“世界上有多少地方可以用众所周知的分布建模。这么多东西都呈正态分布这一事实让我觉得我们在模拟中。”*第一个引起我注意并促使我从事数据科学职业的是美联航通过改变他们用来制作机上杂志的纸张类型，每年节省170,000的燃料。”3.***数据科学家在他们职业生涯的早期就解决了问题(https://www.reddit.com/r/MachineLearning/comments/afl3t1/d_machine_learning_people_what_are_some_things/)他们的第一天。即使是像估算缺失值这样简单的事情，也会在挫折中变成艰苦的工作。这个主题是所有数据科学爱好者的金矿。它以经验丰富的数据科学家为特色，他们分享了他们如何设法学习或理解最初难以掌握的概念。其中一些您甚至可能很熟悉：“最困难的部分是学习不同类型的输入形状（DNN、RNN、CNN）如何工作。我想我花了大约20个小时来弄清楚RNN的输入形状。“每次，并且仍然具有挑战性，正在系统上设置开发环境。安装CUDA、Tensorflow、PyCharm。那些日子是可怕和绝望的。”“将TensorFlow配置为与我的GPU一起工作，需要数小时的谷歌搜索和反复试验。”4.为什么深度学习网络可以很好地泛化（https://www.reddit.com/r/MachineLearning/comments/abj1mc/d_notes_on_why_deep_neural_networks_are_able_to/）神经网络长期以来一直有“黑匣子”的美誉（这不再是真的了）。当这个概念扩展到深度神经网络(DNN)时，事情变得更加混乱。这些DNN是许多最先进成就的核心，因此了解它们的工作原理至关重要。该线程中讨论的一个关键问题是深度神经网络如何泛化。如果您有同样的想法，但没有答案-准备好大吃一惊吧！本主题包括深度学习专家提出的观点。包含许多链接和资源以深入探讨该主题。但请注意，对神经网络的基本了解将有助于您更多地参与讨论。5.AMA与DeepMind的AlphaStar团队(https://www.reddit.com/r/MachineLearning/comments/ajgzoc/we_are_oriol_vinyals_and_david_silver_from/)谷歌的DeepMind的AlphaGo创造打败了围棋冠军李世石，震惊了世界。他们又来了！它的专利算法AlphaStar是在流行游戏星际争霸II上训练的。AlphaStar将两名星际争霸玩家放在一边，以10-1的比分获胜。这个Reddit讨论线程是由两个DeepMindAlphaStar的创建者主持的AMA（AskMeAnything）。他们与Reddit社区讨论了各种主题，解释了算法的工作原理、使用了多少训练数据、硬件设置如何等等。讨论中有两个有趣的问题：“你需要玩多少游戏才能达到目前的水平？或者换句话说：在你的情况下，你在200多年的时间里学会了多少游戏？”“你试过哪些？”其他方法？我知道人们很好奇是否会涉及任何树搜索、深度环境模型或分层RL技术，而且它们似乎都不可行；如果尝试过，他们中的任何一个是否取得了可衡量的进展？”

上一篇：DB分库分表的基本思路和策略

下一篇：从概念到实现LRU算法，未来的React异步开发方式

2019年前5大数据科学GitHub项目和Reddit主题相关文章