当前位置: 首页 > 科技观察

盘点2021年十大PythonML库,国内大佬GitHub半年获5k+星

时间:2023-03-18 20:08:39 科技观察

2021年AI飞速发展,优秀算法层出不穷,让我们大开眼界。要真正实现这些算法,肯定少不了主流机器学习语言Python的加持。今年各大公司和课题组推出了一系列简单易用的高性能开源库,其中不乏一些国内优秀的作品。这里将盘点最好的10个,致力于帮助你解决各种问题。如果你还在为模型训练中的“杂务”头疼,那就来看看吧。1.AwkwardArray官方介绍,AwkwardArray用于不同大小的嵌套数据,包括任意长度的列表、记录、混合类型、缺失数据等。它类似于NumPy。看起来像是NumPy的升级版。果然可以直接把不同长度的数组放在一起运算。而且,官方表示,AwkwardArray不仅更易用,而且在速度和内存上也有一个数量级的优势。看看能不能安排一下~https://pypi.org/project/awkward/2。Jupytext相信大家对JupyterNotebook都不陌生。当你有了Jupytext这个小插件,就可以将JupyterNotebook和IDE完美结合,是不是很棒!从此,JupyterNotebook可以存储为多种语言的Markdown文件或脚本文件。Jupytext可以做的主要事情是:JupyterNotebook的版本控制在您最喜欢的文本编辑器中编辑、合并或重构Notebook在Notebook上使用Q&A来检查它在Python中的使用情况:这个项目在Github上有5k+star。https://github.com/mwouts/jupytext3。Gradio是一个比Streamlit更轻量级的UI设计库。Gradio允许您在浏览器中轻松地“播放”您的模型。可以直接在浏览器中拖放图片,粘贴文字,录制语音等。只要将launch()函数中的参数设置为share=True,也可以得到一个可分享的网址,拿到链接的朋友可以在电脑和手机上打开。它就像一个小程序。经常需要做demo的朋友看看,这个项目在Github上有4.5k+stars。https://github.com/gradio-app/gradio4。HubThisHub是数据管理和数据预处理的好手。它可以处理任何类型、任何大小的数据,而且由于数据存储在云端,因此可以从任何机器无缝访问。压缩成二进制字节的数据可以存储在任何地方并且只在需要时检索,因此可以在没有TB级硬盘驱动器的情况下处理TB级数据。Hub贴心地提供了重要的API,支持数据在常用工具(PyTorch等)上的使用、数据版本控制、数据转换等功能。这个项目在github上有4.1k+stars。https://github.com/activeloopai/Hub5。AugLyAugLy是facebook最新推出的数据增强库。它支持语音、文本、图像和视频数据类型,包含100多种增强方法。数据对于模型训练至关重要,标注大规模数据非常困难。由于人力资源和模型特性的限制,数据增强的应用越来越广泛。AugLy的优点:处理类型更全面。其他数据增强库,如Albumentations、NVIDIADALI,主要负责图像相关数据的处理,不支持文本数据。处理非常人性化。AugLy可以将图片变成备忘录,在图片/视频上叠加文字/表情符号,在社交媒体上转发截图,并帮助您处理复制检测、仇恨言论检测或版权侵权等问题。这个项目在Github上有4.1k+stars。https://github.com/facebookresearch/AugLy6。EvidentlyEvidently是一款模型效果监控工具,可以从PandasDataFrame或csv文件生成JSON格式的交互式可视化报告和效果简报。在JupyterNotebook中可用。目前提供六种报告:数据漂移、数值目标漂移、分类目标漂移、回归模型性能、分类模型性能和概率分类模型性能。这个项目在Github上有1.8k+stars。https://github.com/evidentlyai/evidently7。YOLOX如果你熟悉YOLO,那么你可能会对旷视今年推出的YOLOX感兴趣。YOLO是可用于自动驾驶等前沿技术的目标检测算法。而YOLOX是YOLO的anchor-free版本,设计更简单但性能更好!它的目标是在研究界和工业界之间架起一座桥梁,同时弥合双方之间的鸿沟。这个在Github上的开源项目,短短半年就获得了5.2k+star。https://github.com/Megvii-BaseDetection/YOLOX8。LightSeq正如它的名字一样,LightSeq是字节跳动开发的超快推理引擎,支持BERT、GPT、Transformer等多种模型。你可以看到它的性能,比FasterTransformer更快。LightSeq支持的模型也非常全面。总之就是两个字“好用”。这个项目在Github上有1.9k+stars。https://github.com/bytedance/lightseq9。Greykite是否想预测从COVID-19中恢复的速度?再看看LinkedIn为了自己的时间序列预测需求而开发的Greykite。功能全面(多时间趋势)、界面直观、预测速度快、可扩展性强是其最大的亮点。上面用到的三种算法:Silverkite(Greykite的旗舰算法)FacebookProphetAutoArima有兴趣的可以去研究一下。这个项目在Github上有1.4k+stars。https://github.com/linkedin/greykite10。Jina和Finetuner如今,在搜索引擎等应用中,语义识别越来越重要,因为它可以有效地避免单词匹配的限制。然而,语义识别所涉及的神经网络可能会让很多人感到应接不暇。Jina和Finetuner可以帮你解决这些问题。Jina是一个神经搜索框架,任何人都可以在几分钟内构建可扩展的深度学习搜索应用程序。Finetuner与Jina合作,帮助您调整神经网络参数以获得神经搜索任务的最佳结果。Jina和Finetuner适合经验不多,想尝试的人。https://github.com/jina-ai/finetuner