【.com快译】文本分类是研究热点之一,是一种分析文本数据以获得有价值信息的方法。据消息人士透露,全球文本分析市场预计在2020年至2024年期间将以超过20%的复合年增长率(CAGR)增长。文本分类可用于许多应用领域,例如自动化CRM任务、改进互联网浏览和电子商务等。本文列出了10个可用于文本分类的开源数据集,按字母顺序介绍。1.AmazonReviewsDataset(AmazonReviewDatabase)AmazonReviewDataset包含数以百万计的Amazon客户评论(输入文本)和星级评分(输出标签),用于了解如何训练fastText进行情感分析。该数据集的大小为493MB。相关链接:https://www.kaggle.com/bittlingmayer/amazonreviews2。安然电子邮件数据集(EnronEmailDataset)安然电子邮件数据集包含来自大约150个用户的电子邮件数据,其中大部分是安然公司层的高级管理人员。该数据集由CALO项目(CognitiveAssistantswithLearningandOrganization)收集和准备,总共包含约500,000封电子邮件。相关链接:https://www.cs.cmu.edu/~./enron/3。Goodreads书评(GoodreadsBookReviews)该数据集包含Goodreads书评网站上的评论,描述了书籍的诸多属性,包括评论、阅读、评论操作和书籍属性等。书籍总数包括1,561,465种书名。相关链接:https://cseweb.ucsd.edu/~jmcauley/datasets.html#goodreads4。IMDB数据集(IMDBDataset)IMDB数据集包含50,000条电影评论,用于自然语言处理或文本分析。这是一个用于二元情感分类的数据集,包括25,000条用于训练的自以为是的电影评论和25,000条用于测试的电影评论。相关链接:http://ai.stanford.edu/~amaas/data/sentiment/5。MovieLensLatestDatasets(MovieLens最新数据集)这个数据集是电影、评论、标签和用户的集合。数据有两组数据,是在一段时间内收集的。小数据集包括600位用户的9,000部电影的100,000条评论和3600标签,而大数据集包括280,000位用户的58,000部电影的27,000,000条评论和1,100,000条标签。大型数据集还包括标记的基因组数据,涉及1100个标签。相关链接:https://grouplens.org/datasets/movielens/latest/6。OpinRank数据集(OpinRankDataset)该数据集包含从Tripadvisor和Edmunds收集的汽车和酒店的完整评论。该数据集包含10个不同城市的酒店的完整评论,以及2007年、2008年和2009年车型的完整评论。数据集中,汽车评论总数约为42230条,酒店评论总数约为259000条。相关链接:https://github.com/kavgan/OpinRank/tree/master7。SMSSpamCollection(垃圾短信数据集)SMSSpamCollection是一个包含垃圾短信的公共数据集,收集用于手机垃圾短信研究。该数据集包含5574条真实和未编码的英文短信,根据合法或垃圾短信进行标记。该数据集以纯文本和ARFF格式提供。相关链接:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/8。博客作者语料库(BloggerCorpus)博客作者语料库包含19320条从blogger.com收集的2004年8月博主的帖子。语料库共包含681,288篇帖子,超过1.4亿个单词,相当于每人约35个帖子和7,250个单词。在这个数据集中,每个博客都显示为一个单独的文件,文件名代表博主的ID#和博主自己提供的性别、年龄、行业、星座。相关链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm9。WordNet(WordNet)WordNet是一个大型的英语词汇数据库,其中名词、动词、形容词和副词被分组为不同的认知同义词(同义词集),每一组代表一个不同的概念。在这个数据集中,同义词集的总数是117,000,每个同义词集都通过少量的概念关系与其他同义词集相关。相关链接:https://wordnet.princeton.edu/10。Yelp评论(YelpReviews)YelpDataset是一个用于学习的通用数据集,它是Yelp的业务、评论和用户数据的一小部分,可用于个人、教育和学术目的。该数据集包括来自10个大都市地区的6,685,900条评论、200,000张图像和192,609家企业。相关链接:https://www.yelp.com/dataset原标题:10个用于文本分类的开源数据集,作者:AmbikaChoudhury
