当前位置: 首页 > 科技观察

一篇文章看懂NLP落地的难点在哪里

时间:2023-03-12 07:05:51 科技观察

[.com原稿]近年来,自然语言处理技术逐渐成为应用最广泛的人工智能技术之一。尤其是在深度学习浪潮的推动下,人工智能的这一分支取得了长足的进步。在我们的日常生活中,自然语言处理技术的应用渗透在我们经常接触到的搜索引擎、个性化推荐、智能音箱、机器实时翻译等场景中。但总的来说,NLP在商业化方面其实相当有限,相关产品也基本“有货”,但离实际意义上的“好用”还有很长的距离。  纵观市场,很多智能交互系统往往是针对单一领域的单一任务,因此应用非常有限,需要突破技术壁垒才能产生爆款产品。此外,为了实现自然语言处理技术的突破,模型迭代和训练的成本非常高。在应用初期,基本上是顶级玩家的游戏,很难出现有代表性的标杆企业。本文将从自然语言本身、多模态学习、训练数据获取、工业设计需求四个方面分析NLP技术落地的难点,希望对当前瓶颈的突破有所启发。  难点之一:自然语言是不断进化的)。常用的自然语言处理方法包括分词、文本分类、关键词分析、敏感词识别、词频统计、观点归纳、情感分析等,这些方法本质上都是文本挖掘中的特征提取,从而促进对文本的理解。  为计算机理解自然语言而建立的模型称为语言模型。常见的自然语言模型包括词袋模型、N-Gram模型和神经网络语言模型。bagofwords模型(bagofwords)把每个词看成一个独立的符号,但是忽略了词序信息,显然对语义的理解会比较粗糙;N-Gram语言模型虽然考虑了词序,但受到数据稀疏性问题的限制。影响,无法处理超出词汇量的词;神经网络语言模型基于分布式表示,虽然可以提高模型的泛化能力,但模型训练时间长,可解释性不够。  在一定程度上,各种自然语言模型的局限性可以说是自然语言本身的一些特性造成的。自然语言可以说是人类使用过的最复杂的符号系统。这一制度随着社会的进步而不断演进,表现出非常鲜明的个性。  多样性:基于人类的创造力,语言作为一个开放的集合不断吸收和引入新的表达方式。生活中比较常见的是旧词新义的现象。比如“hardcore”,原指朋克音乐的一个分支,现在基本上被认为是“cool、tough、tough”在使用上的意思。在网络语言中,这种创新得到了极大的释放。“zgsq”是“真情流露”的拼音梗,“雨女wugua”是“与你无关”的谐音梗。这些词充分扩展了语言的表达空间,但又极富偶然性和随机性。规则难以发现,缺乏足够的数据支持,是自然语言理解的一大难点。  歧义:语言中有很多多义词。如果上下文与两个说话人的上下文没有联系或结合,就容易造成歧义。看看这句话:婚姻是一个男人失去学士学位,女人获得硕士学位的机构!这句话的有趣之处在于,其中三个词带有双关语。institution既可以表示“学院”也可以表示“系统”,bachelor可以表示“单身”也可以表示“单身”。master既指“主人”,也指“主人”。在这个层次上,“college,bachelor,master”是一个系统的词,“institution,single,master”是另一个系统。更通俗的翻译是:婚姻是一种制度,男人不再单身,女人却有“主人”。但是对于机器来说,理解这个多义词其实是一个很大的挑战。  社会性:人类的社会生产生活在语言中有着深刻的体现,不同的地域、国家的社会形态和地域特点也产生了不同的语言体系。因此,不同成长背景、不同社会经历、不同知识体系的人使用不同的语言。比如7-11,有人认为是Numbers,有人认为是日期,有人认为是便利店。语言的使用不仅因人而异,而且同一个人在不同的场合也会切换不同的风格。例如,公开演讲和朋友聚会的用词必须不同。不同之处。没有社会考虑的自然语言理解可能是一千英里之外的事情。  主观性:在中国传统文化中,“言外之意”、“泛音”也是很常见的表达方式。语言在说话者口中只有一种含义,但听者可能会从多个角度和层次来理解它。在人们的日常谈话中,这种主观性比比皆是。有时需要结合上下文才能洞察差异,否则很容易踩到“雷区”。比如,邻居对李阿姨说:“你家小明真勤劳,每天晚上十二点还能听到他练琴的声音。”很明显,言外之意就是小明练琴影响到了其余的邻居。  正是由于自然语言的多样性、歧义性、社会性、主观性等特点,自然语言才呈现出复杂的画面。目前,现有的语义表示方案只能在特定任务下从数据中学习,其通用性和可迁移性还远远不够。面对这个问题,有必要研究一种具有较强泛化能力的相对通用的语义模型。设计此类模型的前提是解决无监督语义学习问题。目前NLP领域最受瞩目的模型包括Google的BERT和Facebook的RoBERTa。  难点二:多模态语义理解  基于多模态信息融合的自然语言处理是NLP领域的重大课题,也是众多研发团队的主攻方向。多模态更通俗的理解是:多种感官、多种信息源的融合。因为人类是通过“看”、“听”、“闻”、“触”等多种感知方式的结合来认识世界的,如果机器能更“聪明”地像人一样利用多维信息,将图像结合起来,利用音频和视频来理解用户意图,可能更有利于解决实际场景的需求。  多模态自然语言处理技术的难点主要集中在三点:第一,语义鸿沟无处不在,即使是单模态,整合多模态无疑难度更大;第二,多模态数据之间存在特征异质性,跨模态关联算法必须有质的飞跃;第三,多模态数据集的建立面临巨大挑战。  目前市面上大部分打着“多模态AI交互”旗号的产品实际上并不是多模态交互产品。在运行中,不同来源的信息输入到设备处理中心后仍然是分离的。本质上,不同的算法激活不同的开关。即使这台机器可以“看”和“听”,实际上这两种功能是相互分离的,信息并不相互作用。  为了真正实现多模态协同,近年来,“多模态深度学习”技术成为业界热门话题,即  是指建立一个神经网络模型,可以完成多模态学习任务。通过该技术实现模态转换、模态对齐、模态融合等,使智能体能够理解多模态信号,将视觉、听觉、感官信号整合为统一的“思维”。  难点三:缺乏训练数据  缺乏数据本身就是NLP领域永恒的难题。缺少标注数据、样本中存在大量噪声、数据出现偏差都是普遍现象。在人工智能研发中,算力是基础,算法基本开源,数据自然成为各个研究机构和企业的核心。尤其是当你需要一些特定的数据时,光是收集数据的成本就可能超出预估。  另外,在自然语言处理领域,标注数据的规模远远不能满足应用需求,人工标注的成本极高。数据标注,即对数据集进行标注、标记、着色或突出显示,以标记目标数据的相同点、不同点或类别。有了标注数据,就可以在此基础上对算法进行训练。数据标注的质量越高,学习结果越准确,NLP进入实用阶段的可能性就越大。然而,数据标注本来就是一个“冷板凳”的工作。工作量大而且很枯燥,很少有人愿意去做。而且,在人工操作下,贴标质量无法保证。  在这种情况下,成品数据库成为了很多人和企业的选择。成品数据库优势明显,成本低,效率高。数据库不是定制收藏品,完成后可以重复出售,所以价格肯定不会高。而且数据库即开即用,大大节省了研发周期,节省了人力和财力。但是成品数据库也有明显的缺点,就是适应性差。数据库作为现成的工具,是无法更改的。当你的应用场景发生变化或者有更高的要求时,成品数据库肯定是不适合的。因此,对于起步阶段的产品和企业来说,成品数据库非常实用,但对于进阶的产品,肯定需要定制化的数据补充。  难点四:实验室与市场的差距  NLP技术从实验室到市场还有多远?与学术界的训练模型相比,商业模型在实施时考虑的因素通常要复杂一些。此外,还需要在产品设计和产品体验方面做出更多的取舍。  首先要明确的是,优化产品模型是没有止境的。因为训练模型的注意力指标与用户期望的结果之间可能存在一定的差距。因此,在实际运行过程中,无论研发阶段的效果多么无懈可击,仍然需要根据用户反馈不断调整参数,或者补充训练数据,或者结合其他算法来提高易用性。模型。即便是上线之后,也要根据运营数据和用户行为进行模型调优迭代。  另外,在选择落地场景的时候,一定要看到“闯关”的可能性。我们可以参考AI世界中飞速发展的人脸识别技术。该领域的产品在当前市场应用广泛,精度有一定的保证,行业覆盖面也在逐步扩大。不过,就一开始的商业化而言,人脸识别是以“安全”为切入点的。在这个行业里,产品经过反复打磨,逐渐成熟,才开始“开疆辟土”。除了继续磨练NLP技术的硬技能,还需要找到这样的经典场景,然后点一下再绽放更多。  此外,产品设计要更贴近用户需求。这种需求包括实用需求和审美需求。NLP技术要大规模落地,必须让产品更贴近人们日常生活的常态。但一般来说,生活中的交流往往是口语化的,逻辑跳跃,语义多变。很难建模和分析。此外,场景开放,需要足够的常识背景来辅助理解。因此,在产品开发中,有必要在这方面下功夫。此外,界面设计也是影响落地的重要因素。在功能表现相近的情况下,如果UI更好,用户体验更好,自然能建立起市场竞争力。  任重而道远,我将上下搜索  自然语言被普遍认为是人类智慧与文明的融合,自然语言处理也因此成为皇冠上的明珠。为了不让明珠蒙尘,我们还有很多问题需要攻克:语义消歧、迁移学习、抽象抽取、领域适配、面向任务的人机对话……技术的延伸没有边界。当感知智能和识别智能不断向前发展。当图文声像相互交织,人机无障碍交流的群像自然而然地缓缓展开,延伸到花与荆棘交织的无尽未来。【原创稿件,合作网站转载请注明原作者和出处为.com】