Python是一种了不起的语言。它是世界上发展最快的编程语言之一。它在数据科学中的作用是有目共睹的。Python及其库的整个生态系统使其受到全世界用户的欢迎。最佳选择(初学者和高级用户)。它成功和受欢迎的原因之一是它背后强大的图书馆集合。今天,我们将与您分享一些用于数据科学任务的Python库。这些库并不常见。它们不像panda、scikit-learn、matplotlib等那样出名,但它们非常有用。让我们看看有哪些库可用。:1.Wget数据抽取,尤其是从网络中抽取数据,是数据科学家的重要工作之一。Wget是一个免费工具,用于从支持HTTP、HTTPS和FTP协议的Web下载非交互式文件,以及通过HTTP代理检索。由于它是非交互式的,即使用户没有登录,它也可以在后台工作。因此,她非常适合下载一个网站或一个页面的所有图片。(项目地址:https://pypi.org/project/wget/)安装:$pipinstallwget示例:importwgeturl='http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'filename=wget。下载(网址)100%[............................................................]3841532/3841532filename'razorback.mp3'2.PendulumPendulum对于那些需要在Python项目中使用datetime的人来说是一个不错的项目选择。它是一个用于简化日期时间操作的Python包。它可以完全替代Python的原生类。(项目地址:https://github.com/sdispater/pendulum)安装:$pipinstallpendulum例子:importpendulumdt_toronto=pendulum.datetime(2012,1,1,tz='America/Toronto')dt_vancouver=pendulum.datetime(2012,1,1,tz='America/Vancouver')print(dt_vancouver.diff(dt_toronto).in_hours())33.imbalanced-learn其实就是当每个类的样本数都差不多的时候,分类的效果algorithm是最好的,但是实际项目中的大部分数据集都是不平衡的。这些数据集对机器学习算法的学习阶段和后续预测有影响。Imbalanced-learn就是为解决此类问题而创建的。它与scikit-learn兼容,scikit-learn是scikit-learn-contrib项目的一部分。下次遇到不平衡的数据集时请考虑一下。(项目地址:https://github.com/scikit-learn-contrib/imbalanced-learn)安装:pipinstall-Uimbalanced-learn#orcondainstall-cconda-forgeimbalanced-learn4。FlashText在NLP任务中清理文本数据中的关键词或从句子中提取关键词时,通常需要替换句子。这种操作一般都是用正则表达式来完成,但是如果搜索的关键词达到几千个,就会变得很麻烦。Python的FlashText模块是基于FlashText算法的,它为这种情况提供了一个合适的替代方案。FlashText最好的部分是无论搜索词的数量如何,运行时都是相同的。(项目地址:https://github.com/vi3k6i5/flashtext)安装:$pipinstallflashtext示例:fromflashtextimportKeywordProcessorkeyword_processor=KeywordProcessor()#keyword_processor.add_keyword(,)keyword_processor.add_keyword('BigApple','NewYork')keyword_processor.add_keyword('BayArea')keywords_found=keyword_processor.extract_keywords('IloveBigAppleandBayArea.')keywords_found['NewYork','BayArea']关键字替换:keyword_processor.add_keyword('NewDelhi','NCRregion')new_sentence=keyword_processor。replace_keywords('IloveBigAppleandnewdelhi.')new_sentence'IloveNewYorkandNCRregion.'5.Fuzzywuzzy这个名字听起来很奇怪,但是在字符匹配方面,fuzzywuzzy是一个非常有用的库。可以快速实现字符串匹配度、token匹配度等操作。它还可以轻松匹配保存在不同数据库中的记录。(项目地址:https://github.com/seatgeek/fuzzywuzzy)安装:$pipinstallfuzzywuzzy示例:fromfuzzywuzzyimportfuzzfromfuzzywuzzyimportprocess#SimpleRatiofuzz.ratio("thisisatest","thisisatest!")97#PartialRatiofuzz.partial_ratio("thisisatest!",")1006.PyFlux时间序列分析是机器学习领域最常遇到的问题之一。PyFlux是为处理时间序列问题而构建的Python开源库。该库拥有现代时间序列模型的优秀集合,包括但不限于ARIMA、GARCH和VAR模型。综上所述,PyFlux提供了一种高效的时间序列建模方式,值得一试。(项目地址:https://github.com/RJT1990/pyflux)安装:pipinstallpyflux7.ipyvolume结果交流是数据科学的一个重要方面,可视化是一个很大的优势,IPyvolume是一个用于Jupyternotebooks中的Python库可视化三维图形(比如三维stereograms等),不幸的是它仍处于测试版阶段。(项目地址:https://github.com/maartenbreddels/ipyvolume)安装:使用pip$pipinstallipyvolumeConda/Anaconda$condainstall-cconda-forgeipyvolume示例:8.DashDash是一个高效的Python框架,用于构建Web应用程序。它基于Flask、Plotly.js和React.js创建,将现代UI元素(例如下拉框、滑块和图形)与用户分析Python代码绑定相结合,而无需借助Javascript。Dash非常适合构建数据可视化应用程序。然后可以在Web浏览器中呈现这些应用程序。(项目地址:https://github.com/plotly/dash)安装:pipinstalldash==0.29.0#Thecoredashbackendpipinstalldash-html-components==0.13.2#HTMLcomponentspipinstalldash-core-components==0.36.0#Superchargedcomponentspipinstalldash-table==3.1.3#InteractiveDataTablecomponent(new!)Example:9.BashplotlibBashplotlib是一个用于在终端生成基本绘图的Python包和命令行工具,用Python编写,当用户无法访问GUI时,可视化数据变得非常方便.安装:pipinstallbashplotlib示例:scatter--filedata/texas.txt--pch.hist--filedata/exp.txt10。Coloramacolorama是一个专门用于在控制台和命令行输出彩色文本的Python模块,可以跨平台使用。它在windows和linux下工作正常。它使用标准的ANSI转义码对终端输出进行着色和样式化。(项目地址:https://github.com/tartley/colorama)安装:pipinstallcolorama示例:importcoloramafromcoloramaimportFore,Back,Stylecolorama.init()#Setthecolorsemi-permanentlyprint(Fore.CYAN)print("TheTextwillappearincyanuntilitisreset")print(Style.RESET_ALL)#Colorizeasinglelineandthenresetprint(Fore.RED+'ColorizeasinglelineinRED'+Style.RESET_ALL)#Colorizeasinglewordintheoutputprint('Youcanalsocolorizeasingleword'+Back.GREEN+'words'+Style.RESET_ALL+'canbehighlighted')#CombineforegroundandbackgroundcolorBackprint('Fore.WHITE)前景、背景和样式可以组合')print("==========")print(Style.RESET_ALL)print('Reseteverythingbacktonormal.')输出如下:以上是我推荐的处理数据的任务sciencePython库,不知道有没有你喜欢的。