有了这个开源项目,你再也不用为找不到好用的中文NLP数据集而烦恼,142个数据集,总有适合你的一。中文NLP数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html在不归路的学习NLP的路上,我们总会发现大部分高级算法和高质量的示例代码都在英文数据集中。而当我们希望将模型迁移到中文世界时,缺乏公开的优质数据集简直就是一道天然屏障。例如,最简单的语言模型和词嵌入模型只需要一段自然的中文文本。然而,实际上我们会发现,好用的大型公共语料库真的很少。我们需要在GitHub等平台上寻找各种收集中文NLP数据集的项目,然后根据自己的需要进行选择。值得注意的是,国内很多中文数据集都非常老旧,使用起来会比较麻烦。这时候就需要我们自己做出判断和试错了。不过,在这篇文章中,我们将介绍一个新的中文NLP数据搜索项目,这可能是最全面的中文NLP数据集信息集合。该项目收集了100多条中文NLP数据信息,并以搜索的形式展示结果。我们只需要输入关键字,或者数据集所属的字段等信息,就可以找到对应的数据集。每个搜索结果都会显示数据集的基本信息、访问链接等关键信息,可以帮助我们快速筛选数据集。这些简短的描述是有道理的,因为每个领域都有很多相似的数据集。读者如果想查看有哪些数据集,可以直接查看搜索项目的GitHub地址,所有数据集信息都在上面。这是一个非常完整的中文NLP数据集集合。本项目的NLP数据集包括NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库、阅读理解等10大类142个类别。数据集。具体来说,对于每个数据集,项目作者提供了数据集名称、更新时间、数据集提供者、描述、关键词、类别和论文地址等信息。项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch本项目对中文NLP数据集进行分类。但由于整个项目包含的数据集类型较多,机器之心只简单介绍了情感分析和文本分类数据集。作为自然语言处理(NLP)的一个常见应用,情感分析特别适用于旨在提取文本情感内容的分类方法。本项目引入了11个情感分析数据集来源,包括NLPCC2013/2014、微博情感语料库、之江杯电商评论挖掘大赛和2019搜狐校园算法大赛数据集。项目中一些情感分析中文数据集的详细信息。文本分类是自然语言处理中最常用和最基础的应用,目前已经有很多文本分类的数据集。本项目介绍了19个文本分类数据集来源,包括今日头条中文新闻(文本)分类、THUCNews中文文本分类、2017知乎看山杯机器学习挑战赛和中国科学技术大学新闻分类语料库等。项目中部分文本分类数据集的详细介绍。最后,开发者还可以上传数据集信息贡献自己的力量,上传5条(含)以上数据集信息,审核通过后即可成为本项目的贡献者。目前看来142个数据集已经很完整了,但是对于更多的NLP子领域任务,还需要大家共同维护。
