介绍提到数据科学的python包,你可能会想到numpy、pandas、scikit-learn等。这里有一些不常见但非常有用的。有用的python包就像挠痒痒一样。虽然大部分时间都用不到,但用起来真的很爽。Python是一种了不起的语言。事实上,它是世界上发展最快的语言之一(感觉不像是一种,它是最快的)。在数据科学和开发的世界里,它一次又一次地为我们提供便利。整个Python生态系统和库使其适合所有用户(初学者和高级用户)。Python如此成功的原因之一是它的库,它使Python灵活而快速。在这篇文章中,我们将看看一些不太常用的数据科学库,除了pandas、scikit-learn、matplotlib等。虽然pandas和scikit-learn是我们提到数据科学时想到的,但无伤大雅了解其他python库。下面是一些可能对数据科学有用的其他Python库。Wget从网络中获取数据对于Python科学家来说是一项非常重要的工作。Wget是一个免费的工具,可以非交互式地从Web下载文件,支持HTTP、HTTPS和FTP协议,还支持HTTP代理。由于它是非交互式的,即使用户没有登录,它也可以在后台运行。所以下次你需要从网络下载图像时,试试wget。安装:$pipinstallwget示例:importwgeturl='http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'filename=wget.download(url)100%[…………............................]3841532/3841532文件名'razorback.mp3'Pendulum这是你在做什么?当你在处理日期和时间时头大,Pendulum非常适合你。该包用于简化日期和时间的操作。具体用法可以看这里。安装:$pipinstallpendulum示例:importpendulumdt_toronto=pendulum.datetime(2012,1,1,tz='America/Toronto')dt_vancouver=pendulum.datetime(2012,1,1,tz='America/Vancouver')print(dt_vancouver.diff(dt_toronto).in_hours())3imbalanced-learn在大多数分类问题中,当所有类别的样本数量大致相同时,效果最好,即样本平衡。但在实际情况中,往往是数据不平衡,往往会影响训练过程和后续的预测。幸运的是,这个库可以帮助我们解决这个问题。这与scikit-learn兼容,并且是scikit-learn-contrib的一部分。下次可以试试。安装:pipinstall-Uimbalanced-learn#orcondainstall-cconda-forgeimbalanced-learn示例:请参考文档。FlashText在清洗NLP相关数据的时候,往往需要替换一些关键词或者提取一些关键词。通常,你可以使用正则表达式来完成这项工作,但是当正则条件的数量达到数千个时,它会非常大。FlashText是一个基于FlashText算法的模块,它在这种情况下提供了一个替代工具。FlashText最好的一点是运行时间与搜索条件的数量无关。更多信息可以在这里找到。安装:$pipinstallflashtext示例:从flashtextimportKeywordProcessorkeyword_processor=KeywordProcessor()#keyword_processor.add_keyword(
