数据科学中一些不常见但很有用的Python库

时间：2023-03-18 11:27:07 科技观察

介绍提到数据科学的python包，你可能会想到numpy、pandas、scikit-learn等。这里有一些不常见但非常有用的。有用的python包就像挠痒痒一样。虽然大部分时间都用不到，但用起来真的很爽。Python是一种了不起的语言。事实上，它是世界上发展最快的语言之一（感觉不像是一种，它是最快的）。在数据科学和开发的世界里，它一次又一次地为我们提供便利。整个Python生态系统和库使其适合所有用户（初学者和高级用户）。Python如此成功的原因之一是它的库，它使Python灵活而快速。在这篇文章中，我们将看看一些不太常用的数据科学库，除了pandas、scikit-learn、matplotlib等。虽然pandas和scikit-learn是我们提到数据科学时想到的，但无伤大雅了解其他python库。下面是一些可能对数据科学有用的其他Python库。Wget从网络中获取数据对于Python科学家来说是一项非常重要的工作。Wget是一个免费的工具，可以非交互式地从Web下载文件，支持HTTP、HTTPS和FTP协议，还支持HTTP代理。由于它是非交互式的，即使用户没有登录，它也可以在后台运行。所以下次你需要从网络下载图像时，试试wget。安装：$pipinstallwget示例：importwgeturl='http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'filename=wget.download(url)100%[…………............................]3841532/3841532文件名'razorback.mp3'Pendulum这是你在做什么？当你在处理日期和时间时头大，Pendulum非常适合你。该包用于简化日期和时间的操作。具体用法可以看这里。安装：$pipinstallpendulum示例：importpendulumdt_toronto=pendulum.datetime(2012,1,1,tz='America/Toronto')dt_vancouver=pendulum.datetime(2012,1,1,tz='America/Vancouver')print(dt_vancouver.diff(dt_toronto).in_hours())3imbalanced-learn在大多数分类问题中，当所有类别的样本数量大致相同时，效果最好，即样本平衡。但在实际情况中，往往是数据不平衡，往往会影响训练过程和后续的预测。幸运的是，这个库可以帮助我们解决这个问题。这与scikit-learn兼容，并且是scikit-learn-contrib的一部分。下次可以试试。安装：pipinstall-Uimbalanced-learn#orcondainstall-cconda-forgeimbalanced-learn示例：请参考文档。FlashText在清洗NLP相关数据的时候，往往需要替换一些关键词或者提取一些关键词。通常，你可以使用正则表达式来完成这项工作，但是当正则条件的数量达到数千个时，它会非常大。FlashText是一个基于FlashText算法的模块，它在这种情况下提供了一个替代工具。FlashText最好的一点是运行时间与搜索条件的数量无关。更多信息可以在这里找到。安装：$pipinstallflashtext示例：从flashtextimportKeywordProcessorkeyword_processor=KeywordProcessor()#keyword_processor.add_keyword(,)keyword_processor.add_keyword('BigApple','NewYork')keyword_processor.add_keyword('BayArea')keywords_processor=中提取关键字。extract_keywords('IloveBigAppleandBayArea.')keywords_found['NewYork','BayArea']replacekeyword_processor.add_keyword('NewDelhi','NCRregion')new_sentence=keyword_processor.replace_keywords('IloveBigAppleandnewdelhi.')new_sentence'FuzIloveNewYorkandNorkand这个名字听起来很奇怪，但是到了人物匹配的时候，用起来还是很爽的。字符比、token比等都可以轻松实现。也可以跨不同的数据集进行匹配。安装：$pipinstallfuzzywuzzy示例：fromfuzzywuzzyimportfuzzfromfuzzywuzzyimportprocess#SimpleRatiofuzz.ratio("thisisatest","thisisatest!")97#PartialRatiofuzz.partial_ratio("thisisatestest","thisisatest!")100PyFlux时序处理是该领域经常遇到的问题机器学习。PyFlux是一个专门用于处理时间序列问题的开源Python库。该库中有ARIMA、GARCH、VAR等一系列时间序列模型。简单来说，PyFlux为概率建模提供了时间序列，一种价值尝试。有关安装pipinstallpyflux的示例，请参阅此处。Ipyvolume交流结果是数据科学的一个非常重要的方面。结果可视化是一个非常重要的优势。IPyvolume是一个3D可视化库，但它仍处于pre-1.0阶段。可以这样分类。IPyvolume是3D数据的可视化，matplotlib是2D数据的可视化。详细信息可以在这里找到。使用pip$pipinstallipyvolumeConda/Anaconda$condainstall-cconda-forgeipyvolume示例标记渲染Dash安装这是一个用于创建Web应用程序的用户生成的Python框架。它写在Flask之上，可用于构建可在Web浏览器中呈现的数据可视化应用程序。用户手册可以在这里找到。安装pipinstalldash==0.29.0#Thecoredashbackendpipinstalldash-html-components==0.13.2#HTMLcomponentspipinstalldash-core-components==0.36.0#Superchargedcomponentspiinstalldash-table==3.1.3#InteractiveDataTablecomponent（新！）示例GymGym来自OpenAI强化学习。与所有数值计算库兼容，例如TensorFlow、Theano等。该库提供了一个问题测试环境，您可以使用它来试验您的强化学习算法。这些环境共享一个接口，允许您编写通用算法。安装pipinstallgymexample结论这是我选择的一些有用但不常用的python库。如果你知道其他人，你可以继续添加他们。不要忘记先尝试一下。

上一篇：真蛋疼，小IP，大耦合_0

下一篇：幻读：听说被MVCC干掉了？_0

数据科学中一些不常见但很有用的Python库相关文章