Representationlearning:advanceddeeplearningfornaturallanguageAnnotatedtrainingdataintraditionalsupervisedlearning。它还推动了多任务学习、零样本学习、流形布局技术、数据多概念等技术的发展,成为这些技术之间的纽带。基石。上述这些技术对深度学习在自然语言技术中的应用产生了巨大的价值和巨大的影响。得益于表征学习,自然语言处理不仅更快、更易于组织使用,而且更适用于表征学习出现之前无法实现的广泛用例。IndicoData首席技术官SlaterVictoroff表示:“这些是我们在Indico使用的技术,显然其他组织,如谷歌、Facebook和其他组织也在使用这些技术。”“但是,表示学习在这些组织中只是小范围使用,效果还很不理想,在具体应用上也有难度,不能代表机器学习的主流。”但是,如果从发展的角度来看问题,要想获得长远的利益,就必须现在就行动。字节对编码器从广义上讲,表示学习的工作原理与键值对的概念没有什么不同。它使用类似于键的字节对进行编码,Victoroff观察到每个键都有一个代表它的值,“就像字典或查找表”。表示学习的核心是字节对编码,它是为语言中的“有意义的块”生成的。例如:“'ing[ing]space'可能是一个块,或者'spaceum[um]'可能是一个块,”而Victoroff在谈到字节对编码时说:“每个块大约有1到10个字母长...在大多数情况下1到3个字母长。”这种学习模式有两点值得注意。首先是它的语言价值。对于单词,可以识别表示:这些东西是同义词吗?这些东西在语义上相关吗?这些东西在语法上是否相关。其次,这种表示可以为单个词、句子甚至段落以及用户需求提供更多的应用场景。零样本学习表示学习在几个方面对深度学习产生了深远的影响,其中最显着的是减少了训练数据(标签)的数量,这正是高级机器学习模型提高准确性所必需的。准备条件。“如果你的表现足够好,你可以用它来制作模型,他们称之为零样本学习,”Victoroff指出。使用这种技术,数据科学家可以利用标签作为训练模型的唯一示例。例如,在构建预测性飞机模型时,统计人工智能方法会使用标签“飞机作为一个例子”,然后得出一个推论:“几次射击,[a]一次射击。”结果差异很大。种类。这一原则将提高企业在自然语言应用领域的适用性,因为大多数高级机器学习用例都需要高标准的训练数据,而这往往令人望而却步。多任务学习(multitasklearning)如果说减少训练数据是表示学习相对于深度学习应用模式的突破,那么另一个突破就是多任务训练模型。借助更广泛使用的监督和非监督学习方法,即使是针对模型特定的机器学习任务(例如针对销售用例进行训练后对营销数据执行智能处理和自动化实体提取),建模者也可以再次使用相关任务必须从头开始创建新模型。基于表征学习,多任务学习可能会让这种方式成为过去。"假设你为【情感分析】创建了一个模型任务,为【文本分析】创建了第二个模型任务,如果你想知道这两个模型之间的关系,你可以为一个模型创建两个任务进行训练,两个任务共享一个模型,以及相关的任务通过共享信息来相互补充,以提高彼此的表现。”维克多罗夫指出。这种方法对模型使用效率和自然语言分析的价值是显而易见的。建模执行多任务处理的能力在基于向量的NLP(自然语言处理)领域得到了很好的确立。在一些比赛中,模型必须解决10种不同类型的NLP问题,并且有证据表明模型实际上可以将从一项NLP任务(例如理解一门外语)中学到的知识应用到另一项NLP任务中,以理解英语为例.“我们可以证明,以这种方式创建的[模型]正在跨语言利用更多信息,”Victoroff评论道。“这种现象被称为拉伸效应。例如,训练机器学习英语后,训练它学习中文比直接从头训练机器学习中文要容易得多。“数据倍数更好”这个词的意思是相对的,因此对不同的人有不同的意思,这取决于通过NLP实现的目标。实际情况是,从深度学习的计算能力和可扩展性来看,只要数据量足够大,即使是再差的深度神经网络也能取得更好的效果,但是数据倍数的原则是在数据量不大的时候,注重精准定位,改进评价模型,让深度的表现神经网络取得好的结果。正如Victoroff提到的,对于一个特定的模型来说,“它在100个数据点上的效果如何;它在1,000个数据点上的表现如何;它在10,000个数据点上的表现如何?”Victoroff指出,高级机器学习模型的性能取决于数据倍数,并且对于上述表示学习技术(数据倍数)通常可以实现“至少2到4倍的数据倍数”Victoroff指出“4倍模型的数据倍数意味着模型的形成减少了4倍的训练数据量”。用数据倍数建模可以在数据量为还不够。用Victoroff的话来说就是“利用你手中现有的数据几乎可以将准确率提高一倍。“流形布局技术(manifoldlayouttechniques)针对自然语言技术,它的表示是一列数字,数据科学家可以应用不同的数学概念来让机器理解单词的意思。在自然语言处理中,one-hot的方式用一个数字列表来表示单词,这个数字列表可以想象成一个字典,需要处理的自然语言内容越多,列表就越大,每个单词的表示都需要通过一个大的数字列表来完成,这种方式生成的向量维数高且稀疏,大大降低了计算效率。因此,可以通过流形布局技术将数列的意义创造部分转移到嵌入(Embedding)中,即将高维空间的数据转换到低维空间。嵌入(Embedding)是一种将离散变量转换为连续向量的方法。它可以不t不仅减少了离散变量的空间维度,而且有意义地表示变量。Victoroff透露,嵌入(Embedding)是一种将表征放入显式结构中的方法,在这个过程中赋予那些表征以意义。流形是自然语言技术中最流行的嵌入类型之一,因为它们具有“其他结构可能没有的东西,即距离概念。”维克托罗夫透露。距离对于细粒度语言理解领域的高级机器学习模型至关重要。根据Victoroff的说法,“当你阅读一个句子时,会有同义词和反义词以及解析树的概念。词与词之间的关系可以看作是一个距离,所以我们有了这个距离的概念:两个物体。》Manifolds是在做降维,让representations更容易从高维空间转换到低维空间。小编:这里要解释一下manifolds是干什么的,加一个二维空间,以及两点之间的距离distance可以通过两点的x和y坐标来计算,如果在地球仪等多维空间上有两点,需要知道两点之间的距离,就必须用软尺连接两点求距离。错误的计算方法是用一条线穿过地球表面来连接两点。流形布局测量的距离就像这把软尺,沿着地球测量两点之间的距离在地球表面,在神经网络的多维空间中测量两点之间的距离时需要这种技术,我们可以把这两点看成两个词,距离就是两个词之间的关系。相近表示词义相近。如下图所示。同时,Embedding也做了降维,将高维向量变成低维向量,便于分析和展示。成长与发展深度学习空间正在继续快速增长。表征学习可以减少自然语言技术在应用中增加训练数据量,提高训练效率。同时,它使多任务学习的底层模型的效用多样化。结果是,组织可以使用这些模型实现更多目标,减少构建它们所需的时间和精力,并提高它们在NLP或其他应用场景中的准确性。作者介绍崔浩,社区编辑,高级架构师,18年软件开发和架构经验,10年分布式架构经验。他曾是惠普的技术专家。快乐分享,撰写多篇热门技术文章,阅读量超过60万。《分布式架构原理与实践》作者。参考https://insidebigdata.com/2022/02/04/elite-deep-learning-for-natural-language-technologies-representation-learning/https://www.jiqizhixin.com/articles/2019-03-27-7https://www.zhihu.com/question/32275069https://zhuanlan.zhihu.com/p/46016518
