翻译|李锐审稿人|孙淑娟什么是文本分类?文本分类是将文本分类为一个或多个不同类别以组织、构建和过滤成任何参数的过程。例如,文本分类用于法律文件、医学研究和文件,或仅用于产品评论。数据比以往任何时候都重要;企业正花费巨资试图获取尽可能多的洞察力。由于文本/文档数据比其他数据类型丰富得多,因此使用新方法势在必行。由于数据本质上是非结构化的并且极其丰富,因此以易于理解的方式组织数据以理解数据可以显着增加其价值。使用文本分类和机器学习来更快、更经济高效地自动构建相关文本。下面将定义文本分类、它的工作原理、一些最著名的算法,并提供可能帮助您开始文本分类之旅的数据集。为什么使用机器学习文本分类?规模:手动数据输入、分析和组织既乏味又缓慢。无论数据集的大小如何,机器学习都可以进行自动分析。一致性:由于人为疲劳和对数据集中的材料不敏感而发生人为错误。由于算法的公正性和一致性,机器学习提高了可扩展性并显着提高了准确性。速度:有时可能需要快速访问和组织数据。机器学习算法可以解析数据,以易于理解的方式传递信息。6一般步骤一些基本方法可以在一定程度上对不同的文本文档进行分类,但最常见的方法是使用机器学习。文本分类模型在部署之前要经过六个基本步骤。1.提供高质量的数据集数据集是作为模型数据源的原始数据块。在文本分类的情况下,使用有监督的机器学习算法,它为机器学习模型提供标记数据。标记数据是为算法预定义并用信息标记的数据。2.过滤和处理数据由于机器学习模型只能理解数值,因此需要对提供的文本进行标记化和文本嵌入,以便模型正确识别数据。标记化是将文本文档分解为称为标记的较小部分的过程。标记可以表示为整个词、子词或单个字符。例如,可以像这样更智能地对作业进行分词:Tokenword:SmarterTokensubword:Smart-erTokencharacter:S-m-a-r-t-e-r为什么分词很重要?因为文本分类模型只能在基于标记的级别处理数据,无法理解和处理完整的句子。模型需要对给定的原始数据集进行进一步处理,以便轻松消化给定的数据。删除不必要的特征,过滤掉空值和无限值等等。重组整个数据集将有助于防止训练阶段出现任何偏差。3.将数据集拆分成训练和测试数据集希望在保留20%的数据集的同时,在80%的数据集上训练数据,以测试算法的准确率。4.训练算法通过使用训练数据集运行模型,算法可以通过识别隐藏的模式和见解将提供的文本分类为不同的类别。5.测试和检查模型的性能接下来,使用步骤3中提到的测试数据集测试模型的完整性。测试数据集将未标记,以测试模型与真实结果的准确性。为了准确地测试模型,测试数据集必须包含新的测试用例(不同于之前训练数据集的数据)以避免模型过拟合。6.调整模型通过调整模型的不同超参数来调整机器学习模型,而不会出现过度拟合或高方差。超参数是其值控制模型学习过程的参数。现在可以部署了。文本分类是如何工作的?WordEmbeddings在上面提到的过滤过程中,机器和深度学习算法只能理解数值,迫使开发人员在数据集上执行一些词嵌入技术。词嵌入是将词表示为对给定词的含义进行编码的实值向量的过程。Word2Vec:这是谷歌开发的一种无监督词嵌入方法。它利用神经网络从大型文本数据集中学习。顾名思义,Word2Vec方法将每个单词转换为给定的向量。GloVe:也称为全局向量,是一种无监督机器学习模型,用于获取单词的向量表示。与Word2Vec方法类似,GloVe算法将单词映射到有意义的空间中,其中单词之间的距离与语义相似性有关。TF-IDF:TF-IDF,TermFrequency-InverseTextFrequency的缩写,是一种词嵌入算法,用于评估给定文档中词的重要性。TF-IDF为每个单词分配一个给定的分数,表明其在一组文档中的重要性。文本分类算法以下是三种最著名和最有效的文本分类算法。需要牢记的是,每个方法中都嵌入了进一步定义的算法。1.线性支持向量机线性支持向量机算法被认为是目前最好的文本分类算法之一,它根据给定的特征绘制给定的数据点,然后绘制一条最适合的线来分割数据并分为不同的类别。2.Logistic回归Logistic回归是回归的一个子类,侧重于分类问题。它使用决策边界、回归和距离来评估和分类数据集。3.朴素贝叶斯朴素贝叶斯算法根据对象提供的特征对不同的对象进行分类。然后绘制组边界以推断这些组分类以进一步解析和分类。设置文本分类时要避免的问题1.过度拥挤的训练数据用低质量的数据喂养算法会导致未来的预测不佳。机器学习从业者的一个常见问题是,训练模型输入的数据集太大且包含不必要的特征。过度使用不相关的数据会导致模型性能下降。在选择和组织数据集时,越少越好。不正确的训练与测试数据比率会极大地影响模型的性能并影响数据改组和过滤。精确的数据点不会被其他不需要的因素干扰,训练模型会更有效地执行。训练模型时,选择满足模型要求的数据集,过滤掉不需要的值,对数据集进行shuffle,测试最终模型的准确率。更简单的算法需要更少的计算时间和资源,最好的模型是可以解决复杂问题的最简单的模型。2.过拟合和欠拟合当训练达到顶峰时,模型的准确率会随着训练的继续而逐渐下降。这称为过度拟合;由于训练时间过长,模型开始学习意想不到的模式。在训练集上实现高精度时要小心,因为主要目标是开发一个模型,其准确性植根于测试集(模型以前没有见过的数据)。另一方面,欠拟合意味着训练后的模型仍有改进空间,尚未发挥其最大潜力。训练不佳的模型是由于训练时间长或数据集过度正则化造成的。这证明了拥有简明和精确的数据意味着什么。在训练模型时,找到最佳点至关重要。将数据集按80/20拆分是一个好的开始,但调整参数可能是特定模型需要优化执行的事情。3.不正确的文本格式尽管本文没有详细提及,但对文本分类问题使用正确的文本格式会产生更好的结果。表示文本数据的一些方法包括GloVe、Word2Vec和嵌入模型。使用正确的文本格式将改进模型读取和解释数据集的方式,这反过来又有助于它理解模式。文本分类应用程序过滤垃圾邮件:通过搜索某些关键字,可以将电子邮件分类为有用邮件或垃圾邮件。文本分类:通过使用文本分类,应用程序可以通过对相关文本(如项目名称和描述等)进行分类,将不同的项目(文章、书籍等)归入不同的类别。使用这些技术可以改善体验,因为它使用户更容易浏览数据库。识别仇恨言论:一些社交媒体公司使用文本分类来检测和禁止攻击性评论或帖子。营销和广告:企业可以通过了解用户对某些产品的反应来做出特定的改变来满足他们的客户。它还可以根据用户对类似产品的评论推荐某些产品。文本分类算法可以与推荐系统结合使用,推荐系统是许多在线网站用来获得重复业务的另一种深度学习算法。PopularTextClassificationDatasets拥有大量标记和随时可用的数据集,您可以随意搜索适合您的模型的完美数据集。虽然您在决定使用哪一个时可能会遇到一些问题,但这里有一些对公众可用的最知名数据集的一些建议。IMDB数据集AmazonReviewsDatasetYelpReviewsDatasetSMSSpamCollectionOpinRankReviewDatasetTwitterUSAirlineSentimentDatasetHateSpeechandOffensiveLanguageDatasetClickbaitDatasetKaggle等网站包含涵盖所有主题的各种数据集。您可以尝试在上述几个数据集上运行模型进行练习。机器学习中的文本分类由于机器学习在过去十年中产生了巨大的影响,企业正在尝试各种可能的方法来使用机器学习来自动化流程。评论、帖子、文章、期刊和文档在文本中都是无价之宝。通过以各种创造性的方式使用文本分类来提取用户洞察和模式,企业可以做出有数据支持的决策;专业人士可以比以往更快地捕捉和学习有价值的信息。原标题:什么是文本分类?,作者:KevinVu
