这十个不常见但非常有用的Python库你知道几个？

时间：2023-03-20 22:00:24 科技观察

Python是一种了不起的语言。它是世界上发展最快的编程语言之一。它在数据科学中的作用是有目共睹的。Python及其库的整个生态系统使其受到全世界用户的欢迎。最佳选择（初学者和高级用户）。它成功和受欢迎的原因之一是它背后强大的图书馆集合。今天，我们将与您分享一些用于数据科学任务的Python库。这些库并不常见。它们不像panda、scikit-learn、matplotlib等那样出名，但它们非常有用。让我们看看有哪些库可用。:1.Wget数据抽取，尤其是从网络中抽取数据，是数据科学家的重要工作之一。Wget是一个免费工具，用于从支持HTTP、HTTPS和FTP协议的Web下载非交互式文件，以及通过HTTP代理检索。由于它是非交互式的，即使用户没有登录，它也可以在后台工作。因此，她非常适合下载一个网站或一个页面的所有图片。（项目地址：https://pypi.org/project/wget/）安装：$pipinstallwget示例：importwgeturl='http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'filename=wget。下载（网址）100%[............................................................]3841532/3841532filename'razorback.mp3'2.PendulumPendulum对于那些需要在Python项目中使用datetime的人来说是一个不错的项目选择。它是一个用于简化日期时间操作的Python包。它可以完全替代Python的原生类。（项目地址：https://github.com/sdispater/pendulum）安装：$pipinstallpendulum例子：importpendulumdt_toronto=pendulum.datetime(2012,1,1,tz='America/Toronto')dt_vancouver=pendulum.datetime(2012,1,1,tz='America/Vancouver')print(dt_vancouver.diff(dt_toronto).in_hours())33.imbalanced-learn其实就是当每个类的样本数都差不多的时候，分类的效果algorithm是最好的，但是实际项目中的大部分数据集都是不平衡的。这些数据集对机器学习算法的学习阶段和后续预测有影响。Imbalanced-learn就是为解决此类问题而创建的。它与scikit-learn兼容，scikit-learn是scikit-learn-contrib项目的一部分。下次遇到不平衡的数据集时请考虑一下。（项目地址：https://github.com/scikit-learn-contrib/imbalanced-learn）安装：pipinstall-Uimbalanced-learn#orcondainstall-cconda-forgeimbalanced-learn4。FlashText在NLP任务中清理文本数据中的关键词或从句子中提取关键词时，通常需要替换句子。这种操作一般都是用正则表达式来完成，但是如果搜索的关键词达到几千个，就会变得很麻烦。Python的FlashText模块是基于FlashText算法的，它为这种情况提供了一个合适的替代方案。FlashText最好的部分是无论搜索词的数量如何，运行时都是相同的。（项目地址：https://github.com/vi3k6i5/flashtext）安装：$pipinstallflashtext示例：fromflashtextimportKeywordProcessorkeyword_processor=KeywordProcessor()#keyword_processor.add_keyword(,)keyword_processor.add_keyword('BigApple','NewYork')keyword_processor.add_keyword('BayArea')keywords_found=keyword_processor.extract_keywords('IloveBigAppleandBayArea.')keywords_found['NewYork','BayArea']关键字替换：keyword_processor.add_keyword('NewDelhi','NCRregion')new_sentence=keyword_processor。replace_keywords('IloveBigAppleandnewdelhi.')new_sentence'IloveNewYorkandNCRregion.'5.Fuzzywuzzy这个名字听起来很奇怪，但是在字符匹配方面，fuzzywuzzy是一个非常有用的库。可以快速实现字符串匹配度、token匹配度等操作。它还可以轻松匹配保存在不同数据库中的记录。（项目地址：https://github.com/seatgeek/fuzzywuzzy）安装：$pipinstallfuzzywuzzy示例：fromfuzzywuzzyimportfuzzfromfuzzywuzzyimportprocess#SimpleRatiofuzz.ratio("thisisatest","thisisatest!")97#PartialRatiofuzz.partial_ratio("thisisatest!",")1006.PyFlux时间序列分析是机器学习领域最常遇到的问题之一。PyFlux是为处理时间序列问题而构建的Python开源库。该库拥有现代时间序列模型的优秀集合，包括但不限于ARIMA、GARCH和VAR模型。综上所述，PyFlux提供了一种高效的时间序列建模方式，值得一试。（项目地址：https://github.com/RJT1990/pyflux）安装：pipinstallpyflux7.ipyvolume结果交流是数据科学的一个重要方面，可视化是一个很大的优势，IPyvolume是一个用于Jupyternotebooks中的Python库可视化三维图形（比如三维stereograms等），不幸的是它仍处于测试版阶段。（项目地址：https://github.com/maartenbreddels/ipyvolume）安装：使用pip$pipinstallipyvolumeConda/Anaconda$condainstall-cconda-forgeipyvolume示例：8.DashDash是一个高效的Python框架，用于构建Web应用程序。它基于Flask、Plotly.js和React.js创建，将现代UI元素（例如下拉框、滑块和图形）与用户分析Python代码绑定相结合，而无需借助Javascript。Dash非常适合构建数据可视化应用程序。然后可以在Web浏览器中呈现这些应用程序。（项目地址：https://github.com/plotly/dash）安装：pipinstalldash==0.29.0#Thecoredashbackendpipinstalldash-html-components==0.13.2#HTMLcomponentspipinstalldash-core-components==0.36.0#Superchargedcomponentspipinstalldash-table==3.1.3#InteractiveDataTablecomponent(new!)Example:9.BashplotlibBashplotlib是一个用于在终端生成基本绘图的Python包和命令行工具，用Python编写，当用户无法访问GUI时，可视化数据变得非常方便.安装：pipinstallbashplotlib示例：scatter--filedata/texas.txt--pch.hist--filedata/exp.txt10。Coloramacolorama是一个专门用于在控制台和命令行输出彩色文本的Python模块，可以跨平台使用。它在windows和linux下工作正常。它使用标准的ANSI转义码对终端输出进行着色和样式化。（项目地址：https://github.com/tartley/colorama）安装：pipinstallcolorama示例：importcoloramafromcoloramaimportFore,Back,Stylecolorama.init()#Setthecolorsemi-permanentlyprint(Fore.CYAN)print("TheTextwillappearincyanuntilitisreset")print(Style.RESET_ALL)#Colorizeasinglelineandthenresetprint(Fore.RED+'ColorizeasinglelineinRED'+Style.RESET_ALL)#Colorizeasinglewordintheoutputprint('Youcanalsocolorizeasingleword'+Back.GREEN+'words'+Style.RESET_ALL+'canbehighlighted')#CombineforegroundandbackgroundcolorBackprint('Fore.WHITE)前景、背景和样式可以组合')print("==========")print(Style.RESET_ALL)print('Reseteverythingbacktonormal.')输出如下：以上是我推荐的处理数据的任务sciencePython库，不知道有没有你喜欢的。

上一篇：摆脱QQ？微信正在走上这样一条路

下一篇：注意这几点，轻松配置Nginx+Tomcat集群和负载均衡

这十个不常见但非常有用的Python库你知道几个？相关文章