Top10用于文本分类的开源数据集

时间：2023-03-12 19:28:26 科技观察

【.com快译】文本分类是研究热点之一，是一种分析文本数据以获得有价值信息的方法。据消息人士透露，全球文本分析市场预计在2020年至2024年期间将以超过20%的复合年增长率(CAGR)增长。文本分类可用于许多应用领域，例如自动化CRM任务、改进互联网浏览和电子商务等。本文列出了10个可用于文本分类的开源数据集，按字母顺序介绍。1.AmazonReviewsDataset（AmazonReviewDatabase）AmazonReviewDataset包含数以百万计的Amazon客户评论（输入文本）和星级评分（输出标签），用于了解如何训练fastText进行情感分析。该数据集的大小为493MB。相关链接：https://www.kaggle.com/bittlingmayer/amazonreviews2。安然电子邮件数据集（EnronEmailDataset）安然电子邮件数据集包含来自大约150个用户的电子邮件数据，其中大部分是安然公司层的高级管理人员。该数据集由CALO项目（CognitiveAssistantswithLearningandOrganization）收集和准备，总共包含约500,000封电子邮件。相关链接：https://www.cs.cmu.edu/~./enron/3。Goodreads书评（GoodreadsBookReviews）该数据集包含Goodreads书评网站上的评论，描述了书籍的诸多属性，包括评论、阅读、评论操作和书籍属性等。书籍总数包括1,561,465种书名。相关链接：https://cseweb.ucsd.edu/~jmcauley/datasets.html#goodreads4。IMDB数据集（IMDBDataset）IMDB数据集包含50,000条电影评论，用于自然语言处理或文本分析。这是一个用于二元情感分类的数据集，包括25,000条用于训练的自以为是的电影评论和25,000条用于测试的电影评论。相关链接：http://ai.stanford.edu/~amaas/data/sentiment/5。MovieLensLatestDatasets（MovieLens最新数据集）这个数据集是电影、评论、标签和用户的集合。数据有两组数据，是在一段时间内收集的。小数据集包括600位用户的9,000部电影的100,000条评论和3600标签，而大数据集包括280,000位用户的58,000部电影的27,000,000条评论和1,100,000条标签。大型数据集还包括标记的基因组数据，涉及1100个标签。相关链接：https://grouplens.org/datasets/movielens/latest/6。OpinRank数据集（OpinRankDataset）该数据集包含从Tripadvisor和Edmunds收集的汽车和酒店的完整评论。该数据集包含10个不同城市的酒店的完整评论，以及2007年、2008年和2009年车型的完整评论。数据集中，汽车评论总数约为42230条，酒店评论总数约为259000条。相关链接：https://github.com/kavgan/OpinRank/tree/master7。SMSSpamCollection（垃圾短信数据集）SMSSpamCollection是一个包含垃圾短信的公共数据集，收集用于手机垃圾短信研究。该数据集包含5574条真实和未编码的英文短信，根据合法或垃圾短信进行标记。该数据集以纯文本和ARFF格式提供。相关链接：http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/8。博客作者语料库(BloggerCorpus)博客作者语料库包含19320条从blogger.com收集的2004年8月博主的帖子。语料库共包含681,288篇帖子，超过1.4亿个单词，相当于每人约35个帖子和7,250个单词。在这个数据集中，每个博客都显示为一个单独的文件，文件名代表博主的ID#和博主自己提供的性别、年龄、行业、星座。相关链接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm9。WordNet(WordNet)WordNet是一个大型的英语词汇数据库，其中名词、动词、形容词和副词被分组为不同的认知同义词（同义词集），每一组代表一个不同的概念。在这个数据集中，同义词集的总数是117,000，每个同义词集都通过少量的概念关系与其他同义词集相关。相关链接：https://wordnet.princeton.edu/10。Yelp评论（YelpReviews）YelpDataset是一个用于学习的通用数据集，它是Yelp的业务、评论和用户数据的一小部分，可用于个人、教育和学术目的。该数据集包括来自10个大都市地区的6,685,900条评论、200,000张图像和192,609家企业。相关链接：https://www.yelp.com/dataset原标题：10个用于文本分类的开源数据集，作者：AmbikaChoudhury

上一篇：为开发人员打造的个人知识管理工具-Dendron_0

下一篇：HarmonyOS数据库系列之对象关系映射数据库

Top10用于文本分类的开源数据集相关文章