当前位置: 首页 > 科技观察

人工智能语音技术的三大挑战

时间:2023-03-15 22:06:05 科技观察

人工智能从业者在语音转语音技术方面通常会遇到三个常见障碍。几十年来,人们一直在谈论人工智能(AI)能够生成类人数据的前景。然而,数据科学家已经解决了这个问题,但收效甚微。确定创建此类系统的有效策略提出了从技术到伦理以及介于两者之间的一切挑战。然而,生成式人工智能已成为一个值得关注的亮点。从最基本的角度来看,生成式AI使机器能够使用音频文件、文本和图像等元素生成从语音到写作再到艺术的内容。科技投资公司SequoiaCapita表示:“生成式人工智能不仅会变得更快、更便宜,而且在某些情况下,它会比人类创造的人工智能更好。”尤其是基于生成语音的机器学习技术,最近取得了长足的进步,但人们还有很长的路要走。事实上,语音压缩存在于人们非常依赖的应用程序中,例如Zoom和Teams,它们仍然基于1980年代和90年代的技术。虽然语音在语音技术方面具有无限潜力,但评估生成式AI发展障碍的挑战和缺点至关重要。以下是人工智能从业者在语音转语音技术方面经常遇到的三个障碍。1.音质可以说,最好的对话最重要的部分是它是可理解的。就语音转语音技术而言,目标是听起来像人。例如,Siri和Alexa的bot音调像机器一样,并不总是清晰。由于多种原因,这很难通过人工智能实现,但人类语言的细微差别起着重要作用。梅拉比安定律可以帮助解释这一点。人类的谈话可以分为三个部分:55%的面部表情,38%的语调,只有7%的文字。机器理解依赖于文字或内容来运作。只有随着自然语言处理(NLP)的最新进展,才有可能在情绪、情感、音色和语言的其他重要(但不一定是口语)方面训练AI模型。如果你只处理音频而不是视觉,那就更具挑战性了,因为只有不到一半的理解来自面部表情。2.延迟AI综合分析可能需要时间,但在语音对语音通信中,实时是唯一重要的时间。语音转换必须在说话时立即发生。它还必须准确,正如您可以想象的那样,这对机器来说并非易事。实时需求因行业而异。例如,做播客的内容创建者可能更关心音质而不是实时语音转换。但在客户服务这样的行业中,时间至关重要。如果呼叫中心代理使用语音辅助AI来响应呼叫者,他们可能会在质量上做出一些牺牲。不过,时机对于提供积极的体验至关重要。3.规模为了使语音转语音技术发挥其潜力,它必须支持各种口音、语言和方言,并且可供所有人使用——而不仅仅是特定的地理区域或市场。这需要掌握技术的具体应用以及广泛的调整和培训,以便有效地扩展。新兴的技术解决方案不是灵丹妙药;对于给定的解决方案,所有用户都需要通过数千种架构来支持这个AI基础设施。用户还应该期望对模型进行一致的测试。这并不是什么新鲜事:机器学习的所有经典挑战也适用于生成人工智能领域。那么人们如何着手解决这些问题,从而开始意识到语音转语音技术的价值呢?幸运的是,当你逐渐分解它时,它并没有那么可怕。首先,你要掌握问题。早些时候我举了一个呼叫中心和内容创建者的例子。确保您考虑了用例和期望的结果,然后从那里开始。其次,确保您的组织拥有正确的架构和算法。但在此之前,请确保您拥有正确的数据。数据质量很重要,尤其是在考虑像人类语言和言语这样敏感的事物时。最后,如果您的应用程序需要实时语音转换,请确保它受支持。最终,没有人愿意与机器人交谈。虽然关于生成AIdeepfakes、同意和适当披露的道德问题现在逐渐浮出水面,但首先了解和解决基本问题很重要。语音转语音技术有可能彻底改变我们相互理解的方式,为将人们聚集在一起的创新创造机会。但要实现这一目标,首先要面对重大挑战。?