当前位置: 首页 > 科技观察

这个NLP神器火了!关键词提取,结果可视化,从新手到进阶高手

时间:2023-03-20 16:29:07 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。如何快速优雅地处理你的NLP数据集?试试这个号称“从小白到大神”的Texthero工具包。不仅书写界面友好美观,而且功能全面。它精通预处理、表征和可视化。它在17小时内在Reddit上获得了近1.1k的人气。连刚刚下线的NLP程序员都想多和数据集拼上几下:下面是Texthero的用户界面。△优雅漂亮的NLP数据处理界面其实Texthero的优雅不仅仅在于界面的友好,最重要的是省去了很多重复的代码编写工作。只需几行代码,Texthero就可以帮助您完成所需的数据预处理、表示、可视化等操作,极大地解放了您的双手。下面来看看Texthero的数据预处理和各种算法的可视化效果。效果展示首先进行文本清洗,然后使用TF-IDF算法进行特征表示,可视化:PCA降维后的效果duangduang的:△文本清洗和TF-IDF表征后的可视化效果这不是你想要的吗?然后,除了预处理和表征之外,尝试加入K-means聚类算法并可视化:效果如下:算法结果一目了然。不仅设计友好,而且加载代码后,结果会在同一个界面上生成,整体逻辑流程非常清晰。△使用效果从展示界面来看,Texthero只需要编写少量的代码就可以得到你想要的结果,节省了大量的数据处理时间。其实只要掌握基本的使用逻辑,萌新就可以快速上手这款NLP数据处理神器。使用guidepiptexthero(或者直接从GitHub下载工具包,文末附上代码链接)后,使用import将其和pandas导入:之后,加载需要处理的文本信息数据集(这里以BBC体育数据库为例):然后就可以开始使用:预处理如果需要进行快速的数据预处理操作,直接使用“文本清理”即可:当然,如果需要对文本进行更详细的处理操作信息,比如用空格替换所有标点符号,或者删除<>中的所有内容,Texthero也提供了非常完整的工具包供使用。△预处理栏目里有那么多工具,不用写一大堆代码来清理文中的冗余数据。Characterization同理,如果需要进行TF-IDF算法特征表示,只需要几行代码即可实现:一键结果:如果需要更多算法,还有meanshift和NMF等算法,每一个基本上就是全部集成在一行代码中,你想要的都在这里。可视化在可视化方向,Texthero也展示了强大的能力。这里展示PCA降维后的结果:可视化界面非常清晰:同样,可视化还可以自定义颜色、界面显示效果等,只需要一点Python知识就可以快速上手。这么方便的NLP数据处理工具包,赶紧用起来~传送门代码链接:https://github.com/jbesomi/texthero项目链接:https://texthero.org/