当前位置: 首页 > 科技观察

数据科学领域排名前五的Python库

时间:2023-03-16 16:08:40 科技观察

简介在人们的日常工作中,处理数据的过程消耗了大量的时间,我也有过这样的经历。我不仅处理过数字数据,还处理过需要大量预处理的文本数据,nltk、textblob和pyldavis等库可以提供帮助。下面我将讨论这些库的概述和特定功能、安装代码以及如何使用这些有益库的示例。PandasPandas库[3]是从事探索性数据分析的数据科学家必不可少的库。顾名思义,它使用pandas来分析您的数据,或者更具体地说,是pandas数据框。以下是您可以从HTML报告中访问和查看的一些功能:类型推断唯一值缺失值分位数统计(例如中位数)描述性统计直方图相关性(例如Pearson)如何安装文本分析?使用pip:pipinstall-Upandas-profiling[notebook]jupyternbextensionenable--pywidgetsnbextension这也适用于我:pipinstallpandas-profilingimportpandas_profiling示例:下面是我们可以从配置文件报告功能访问的可视化示例之一。查看依赖关系的易于理解、丰富多彩的可视化。局限性:如果数据集很大,此摘要报告可能会花费大量时间。我的解决方案是要么简单地使用较小的数据集,要么对整个数据集进行采样。NLTK通常与nltk相关联的术语是NLP,即自然语言处理,它是数据科学(和其他学科)的一个分支,更容易包括文本处理。导入nltk后,可以更方便的分析文本。以下是您可以使用nltk访问的一些功能:标记文本(例如,["tokenize","text"])词性标记"long","sentence","with","words"]我们需要将每个词分开,以便对其进行分析。在某些情况下需要将单词分开。然后可以对它们进行标记和计数,机器学习算法的新指标可以使用这些输入来创建预测。利用nltk的另一个有用特性是文本可用于情感分析。情绪分析在许多企业中都很重要,尤其是那些有客户评论的企业。现在我们讨论了情绪分析,让我们看看另一个有助于快速情绪分析的库。TextBlobTextBlob[8]有很多和nltk一样的优点,但是它的情感分析功能非常好。除了分析之外,它还具有支持使用朴素贝叶斯和决策树进行分类的功能。以下是您可以使用TextBlob访问的一些功能:标记化词性标记分类拼写正确情绪分析如何安装:pipinstalltextblobfromtextblobimport)正常浮点范围是[-1.0,1.0],而积极情绪在[0.0,1.0]之间].分类:fromtextblob.classifiersimportNaiveBayesClassifiertraining_data=[('sentenceexamplegoodone','pos'),('sentenceexamplegreattwo','pos'),('sentenceexamplebadthree','neg'),('sentenceexampleworsefour','neg')]testing_data=[('sentenceexamplegood','pos'),('sentenceexamplegreat','pos')]cl=NaiveBayesClassifier(training_data)你可以使用这个分类器对文本进行分类,这个分类器将返回“pos”或“neg”输出。这些来自textblob的简单代码提供了非常强大和有用的情感分析和分类。pyLDAvis另一个使用NLP的工具是pyLDAvis[10]。它是一个交互式主题模型可视化工具库。例如,当我使用LDA(潜在狄利克雷分布)执行主题模型时,我通常会在单元格中看到主题输出,这可能很难阅读。然而,当它出现在一个漂亮的视觉摘要中时,它会更有价值,也更容易消化,就像pyLDAvis所做的那样。以下是您可以使用pyLDAvis访问的一些功能:显示前30个最突出的术语有一个交互式调整器,允许您滑动相关性度量显示流行主题,x轴为PC1,y轴为PC2correspondingthemes总的来说,这是一种令人印象深刻的可视化主题的方式,这是其他图书馆无法做到的。如何安装:pipinstallpyldavisimportpyldavis示例:要查看最佳示例,这里有一个JupyterNotebook[11]参考,它演示了该数据科学库的许多独特和有益的功能:https://nbviewer.jupyter.org/github/bmabey/pyLDAvis/blob/master/notebooks/pyLDAvis_overview.ipynbNetworkX,数据科学包NetworkX[13],将其优势集中在生物、社会和基础设施网络的可视化上。以下是您可以使用NetworkX访问的一些功能:创建图形、节点和边检查图元素图结构图属性多图图形生成器和操作与其他库(例如matplotlib.pyplot)协作还可以创建图形的可视化(以数据的方式科学家们习惯于看到)。总结如您所见,有许多易于访问的有用数据科学库。本文提供了一些探索性数据分析库、自然语言处理库(NLP)和图形库的一些描述。我们讨论的顶级数据科学库、平台、包和模块包括:PandasProfilingNLTKTextBlobpyLDAvisNetworkX