张业贵审稿人|IPA(IntelligentPersonalAssistants)是一种人工智能驱动的代理,可以从客户元数据、之前的对话、知识库、地理位置和其他模块化数据库和插件中提取信息,并生成个性化响应。据MordorIntelligence称,智能虚拟助手市场将在2020年代快速增长,预计到2026年将达到62.7亿美元。AI助手技术在很多方面与传统聊天机器人相似,但集成了下一代分析、机器学习、AR/虚拟现实和数据科学。虽然传统的聊天机器人可以处理基于马尔可夫链和其他类似过程的响应请求,但它们的静态响应能力无法与智能虚拟助手的动态洞察力相提并论。苹果公司的Siri是最著名的虚拟助手之一,它是消费者的个人助理。其他智能虚拟助手包括亚马逊的Alexa、微软的Cortana和谷歌的GoogleAssistant。Siri等虚拟助手可帮助客户通过语音提示轻松执行命令,自动执行诸如在智能手机上设置闹钟、使用文本转语音技术大声朗读电子邮件、播放和搜索音乐以及发送短信等任务。智能虚拟助手在智能手机中的普遍存在已导致汽车制造商广泛采用。就智能虚拟助手而言,亚太地区是一个值得关注的重要市场,医疗保健、技术和金融领域的增长显着。该行业的重量级人物包括Apple、InbentaTechnologies、IBM、Avaamo和SonosCorporation。IVA技术的用户遍布医疗保健、电信、旅游和酒店、零售和BFSI。消费类产品包括智能音箱、智能手机、汽车、商用车、家用电脑、家庭自动化设备等。IVA和IPA依赖的底层技术包括机器学习、认知计算、文本阅读、语音识别、计算机视觉和AR。这将在后面详细说明。为什么公司要创建AI助手?如果您是Apple用户,您可能无法想象没有Siri的生活。亚马逊Alexa、谷歌助手、三星Bixby——大多数大品牌都在投资人工智能助手。那么企业为什么要这样做呢?使用人工智能创建此类解决方案的主要优势在于人工智能可以高效快速地处理大量数据,表达洞察力并提供智能建议。在语音捕捉和语音识别的支持下,AI助手可以轻松执行各种日常任务,例如将事件添加到日历、设置提醒或跟踪每月开支。根据Statista的数据,到2024年,全球将有超过80亿的数字语音助手在使用,大致相当于世界人口的规模。为企业构建虚拟助手的主要好处是:改善客户支持服务,减少对人工座席的呼叫和服务请求数量。借助AI助手,您可以自动化与客户交互的业务流程。这将使您的员工能够专注于更复杂的任务,而不是将时间浪费在可以自动处理的请求上。易于收集关键数据。通过传统客服电话或聊天收集的客户体验数据,需要分析师对客服专员通过海量电话收集和记录的信息进行清理。使用智能虚拟助手,客户请求和相关信息可以立即归档、分类和分析分析,而无需依赖客服人员的详细记录。个性化的用户体验。人工智能助手可以根据每个用户的需求,提供优质的个性化服务。例如,智能个人助理可以记住用户的姓名和偏好。这有助于提高用户参与度并提高客户满意度和忠诚度。公司能够将客户支持与公司工具链的复杂部分(如乐高积木)相结合,是智能虚拟助手的一大优势。通过二次开发,虚拟助手可以连接到任何数据库或任何资源,提供关键信息并优化各个级别的工作流程。人工智能虚拟助手的类型人工智能虚拟助手包括:聊天机器人、语音助手、人工智能化身和特定领域的虚拟助手。聊天机器人自创建以来一直是电子商务领域的中流砥柱,但现代聊天机器人由人工智能提供支持,这使它们能够思考客户的询问,而不是通过一系列静态事件来满足客户需求。语音助手使用语音识别和自然语言处理来响应语音请求,例如著名的Siri和GoogleAssistant。AI头像是模仿人类的3D模型,用于娱乐应用程序,或为虚拟客户支持交互提供人性化的触感。Nvidia等公司的尖端技术能够实时生成近乎逼真的人物形象。特定领域的虚拟助手是为特定行业设计的高度专业化的人工智能虚拟助手实现,例如针对旅游、金融、工程、网络安全和其他要求苛刻的行业的高性能需求进行了优化。此外,我们还可以找到为特定任务创建的虚拟助手技术。例如,基于人工智能和3D建模的ATP(AvatartoPerson)技术可以让残障人士进行“虚拟人脸重建”、“语音生成模拟”等任务,实现自由在线交流。AI助手背后的技术假设你想创建一个像Siri这样的个人虚拟助手,你会怎么做?最简单的选择之一是将Siri直接集成到您的应用程序中。除了Siri,Cortana和GoogleAssistant也被开发者广泛集成。2016年,Apple发布了SiriSDK。借助这个开发包,程序员可以将自己应用程序的功能集成到Siri可以执行的任务中。SiriSDK使用意图作为用户意图的标签,并将意图与自定义类和属性相关联。如果您的公司不想依赖现有的AI助手选项,您需要一个由AI工程师组成的专家团队来构建您自己的解决方案。让我们深入探讨智能虚拟助手背后的关键人工智能技术。语音转文本和文本转语音如果我们谈论智能虚拟助手,他们至少需要语音转文本(STT,SPEECH-TO-TEXT)和文本转语音(TTS,TEXT-TO-演讲)能力。语音转文本(STT)的基本原理是将人类语音转换为数字信号。当你说话时,空气中会产生一系列振动。该软件使用模数转换器(ACD)将它们转换为数字信号并提取声音,然后将它们分段并将它们与现有音素匹配。音素是语言中区分不同单词的最小声音单位。基于复杂的数学模型,系统将这些音素与单个单词或短语进行比较,并创建您所说内容的文本。相反,文本转语音(TTS)将文本转换为语音输出。TTS是一种计算机模拟,它使用机器学习将文本转换为人类语音。系统经过三个步骤,首先需要将文本转换为单词,然后进行语音转录,然后将转录转换为语音。语音转文本(STT)和文本转语音(TTS)用于虚拟助手技术,以确保用户和应用程序之间的通信顺畅高效。要将使用静态命令的基本语音助手变成可用的AI助手,您还需要使程序能够通过智能标签和试探法解释用户请求。计算机视觉计算机视觉(CV,Computervision)是一种人工智能技术,可以从数字图像或视频等视觉输入中提取有意义的信息。计算机视觉是创建视觉虚拟助手不可或缺的一部分。这些助手不仅可以响应语音,还可以响应开发者生成的视频,极大地提升了用户体验。CV使系统能够识别对交流很重要的肢体语言。视觉虚拟助手通过摄像头收集数据,并使用实时面部检测捕捉某人注视屏幕的时间,驱动系统的其余部分,并将用户的语音转换为文本。CV还可以通过将用户说的话与用户面部和嘴巴的运动进行比较,大大提高语音识别的准确性。噪音控制噪音控制是语音助手准确性的另一个关键特征。虽然许多智能手机都包含基于软件的噪音控制和抑制功能,但您不能指望它适用于所有客户。为了弥补板载降噪软件的不足,顶级蓝牙耳机还包括硬件降噪,但这并不能保证你的人工智能助手能够准确地检测到客户的声音实际上是在吵闹的火车上说。借助集成的噪音控制包,您可以将误解语音查询的风险降至最低。语音压缩你的AI助手需要临时存储语音信息以供处理,除非你打算用语音数据填满客户的本地硬盘。所以语音压缩很关键,但开发者需要小心。因为音频文件可以压缩得如此之小,以至于由此产生的低保真度使得很难或不可能恢复在处理过程中所说的内容。压缩技术发展日新月异,语音助手的音频编解码器和压缩方案需要进一步研究。自然语言处理AI助手需要对获取的语音数据进行处理和解释,然后执行请求的命令,而自然语言处理(NLP,NaturalLanguageProcessing)则简化了语音识别过程。尽管许多AI工具包都在无数小时的语音样本上进行了预训练,但您仍然需要足够的客户数据来调整您的用例的准确性。如果你的AI助手想要口头回应,你需要像谷歌云这样的顶级语音合成解决方案,它可以产生逼真清晰的声音。然而,语音处理不足以推断出一个人的实际意图并维持正常的对话。正确解释此请求需要自然语言理解发挥作用。自然语言理解自然语言理解(NLU)是一种不同的自然语言处理方法,被大多数计算机和数据科学家认为是NLP的一个分支。NLP方法将自然语言解析、标记化和规范化为用于命令处理的规范化结构,而NLU解释自然语言而不对其进行规范化,并通过识别上下文从查询中获取意义。简而言之,NLP处理语法、结构并补偿用户的拼写错误,而NLU检查请求背后的实际意图。自然语言生成自然语言生成(NLG,NaturalLanguageGeneration)产生自然语言输出。借助这项技术,用户可以从虚拟助手和聊天机器人那里收到类似人类的回复。NLG使用的模型和技术取决于项目的目标和开发方法,最简单的一种是模板。模板具有预定义的结构,只需要填充少量数据。填充数据可以是电子表格中的一行数据,也可以是数据库中的一条记录等。另一种方法是动态NLG,它不需要开发人员为每种特殊情况编写代码,系统可以自行做出反应。这是一种更高级的方法,它依赖于机器学习算法。基于深度学习的文本响应聊天机器人比语音助手简单得多。由于您不必解释语音转语音文本,因此在构建聊天机器人时不需要那么多工具。诸如GPT-3之类的下一代文本生成技术不仅能够生成对基本请求的响应,而且能够从“种子”生成整个新闻故事。深度学习使之成为可能。由深度学习算法提供支持的虚拟助手和聊天机器人可以从自己的数据和人们的对话中学习,检查客户和支持代理之间的交互,创建匹配的消息和响应,并纠正用户的拼写错误和语法错误。增强现实增强现实(AR,Augmentedreality)让您可以将3D对象叠加在现实世界之上,以获得身临其境的体验。基于AR的移动聊天机器人和AR化身是使用这种技术的很好的例子。例如,Arcade为东伦敦的RaggedSchool博物馆创建了一个名为MissPerkins的移动AR头像聊天机器人。该助手为博物馆参观者提供指南,同时提供测验以增强互动用户体验。智能移动AR聊天机器人的另一个例子是维也纳科技博物馆,其功能包括以文本、图像、视频和音频格式导航和回答用户关于特定项目的问题。元宇宙和VR技术的兴起自然导致了虚拟助手:3DAI化身。AR虚拟助手与人工智能相结合,突破了现有AR工具的局限性,更加实用。例如,深度学习可以让智能虚拟助手实时捕捉用户行为,驱动神经网络自主训练,提升虚拟助手的性能。生成对抗网络作为使用神经网络的算法架构,生成对抗网络(GAN)创造了合成数据的新方法。GAN由输入识别器和生成器的真实图像样本组成,用于为AI化身和3D助手生成逼真的3D人脸。GAN技术已被用于许多视频游戏和产品中,以创建逼真的角色。GAN还可用于将静止图像转换为全深度3D图像。迄今为止最先进的AI头像集成工具可能是Nvidia的OmniverseAvatar项目Maxine,它实现了面对面交谈的逼真实时效果。情商当谈到人工智能化身或3D虚拟助手时,重要的不是声音,而是肢体语言和人类情感。借助人工智能支持的情商(EI,EmotionalIntelligence),智能个人助理可以实时追踪用户的非语言行为,并在交流时做出相应的反应。通过跟踪面部表情、肢体语言或声音,使用EmotionAI监控人类情绪,这将导致更快的反应。EmotionAI的核心是计算机视觉和机器学习算法。它使用标准网络摄像头或智能手机摄像头捕捉面部,使用计算机视觉算法识别面部的关键特征并跟踪他们的动作以解读情绪。接下来,系统通过将收集的数据与模板图像库进行比较,根据面部表情的组合来确定一个人的感受。Affectiva或Kairos等解决方案可以衡量以下情绪指标:快乐、悲伤、愤怒、轻蔑、厌恶、恐惧和惊讶。我们还可以从言语中识别情绪。有些软件不仅分析人们说了什么,还分析他们怎么说。该软件提取有助于识别音高、音量、节奏变化的副语言特征,并将它们解释为人类情感。虚拟AI助手技术的挑战以及未来虚拟助手技术的应用无疑会遇到一些挑战。未来人工智能辅助技术的一个主要问题是数据存储和使用的规律。不受限制地使用客户数据进行AI培训很容易受到全球数据安全法变化的影响。在备受瞩目的举报人丑闻之后,像Meta(前身为Facebook)这样的公司有争议的数据处理政策引起了人们对企业过度扩张和隐私问题的担忧。因此,在开发人工智能助手应用程序时,应考虑隐私和数据保护要求,例如欧盟颁布的《通用数据保护条例》(GDPR)。您需要确保您的应用完全合规。还有安全部门的安全保护问题。端到端加密、双因素身份验证和生物识别等安全机制是保护AI助手应用程序的一些最佳方式。此外,经验丰富的AI工程师团队可以帮助您开发由机器学习算法提供支持的自定义安全系统。尽管面临挑战,人工智能助手技术的未来看起来一片光明。技术的进步也在推动更智能的虚拟助手的发展。随着NLP流程的不断发展,虚拟助手将能够执行更复杂的任务。尤其是智能虚拟助手,将能够基于自学习算法主动提出建议,对用户更有帮助。元界的发展也与人工智能虚拟助手息息相关。AI头像是在3D世界中呈现用户身份的最佳方式,AI将使我们的形象更加逼真。基于对身体运动的研究,该模型可以根据耳机和控制器的位置学习并准确预测肩膀和肘部的位置。译者介绍张业贵,51CTO社区编辑,从事企业信息化建设多年。致力于信息集成、数据治理和人工智能应用。主要关注服务标准化和软件流程改进,帮助企业提升效率和价值创新。原标题:HowMachineGeneratedVirtualAssistantscan10xYourProductivityin2022,作者:EvgeniyKrasnokutsky
