谷歌测试语音支付，真的可以张开嘴支付吗？

时间：2023-03-19 14:56:12 科技观察

随着科技的进步，移动支付的方式日新月异。从之前繁琐的密码输入，现在有了更方便、更安全的方法。指纹和人脸识别。然而，在智能手机上已经很普遍的声纹识别却很少被应用到支付领域。近日，有消息称，谷歌已经开始在其产品中实现“张嘴支付”的语音支付功能。据相关媒体报道，谷歌目前正在测试一项新功能，该功能将允许消费者使用VoiceMatch来授权和确认付款。谷歌还证实，并非所有购买都会提供语音识别。现阶段，该功能仅适用于应用内购买和餐厅订单，不适用于谷歌购物（GoogleShopping）。报道称，这项语音支付功能原计划在今年的I/O开发者大会上发布，但受疫情影响，只能跳过发布，直接开始测试。目前，在谷歌助手（GoogleVoiceAssistant）的支付界面，可以看到“通过语音匹配确认”的选项。事实上，语音支付的技术并不新鲜，甚至比语音助手所依赖的自然语言处理（NLP）还要古老。是的，虽然语音支付和自然语言处理都与语音有关，但它们有很大的不同。语音支付的本质是声纹识别，但声纹识别显然不等于语音识别。声波传输是一种以声音为传输方式的数据通信方式。例如，说话的过程可以理解为将信号编码成声音的过程。听的过程就是把音频信号解码成语言的过程。所使用的汉字与拼音的对应关系，实际上相当于音频协议。然而，声纹识别是人格识别。需要提取语音中的声纹特征来判断谁在说话，即解决“谁在说话”的问题。语音识别是普通识别，判断语音的内容，解决“说了什么”的问题。显然，语音支付中最重要的是判断谁在说支付指令。由于每个人发声器官的大小和形状可能并不完全相同，这些差异也会导致发声气流的变化，进而导致声纹的差异。这就是为什么我们可以“未见人而闻声”。通过音色、音调和说话习惯，我们可以判断出声音拥有者的身份。因此，该算法也可用于提取语音信息中明显的、抽象的、高维的声纹。特征，并用深度学习训练模型，然后用独特的生物特征来证明“我是我自己”这个命题。其实，利用声纹识别完成语音支付的过程非常简单。即用户发出带有一定命令的声波，终端设备获取声波并转化为会话（Session），将具体的商品信息和交易号发送给Google后台，可以匹配服务器端的声纹信息。开始交易操作，最后将完成的交易信息推送给谷歌语音助手。在谷歌这次确认测试语音支付之前，亚马逊去年秋天就已经开始允许用户使用语音指令在自家的Alexa上支付账单。账单金额将使用AmazonPay支付，并通过用户注册的手机号码发送确认信息。此外，国内市场的天猫精灵早已可以使用语音支付。阿里巴巴公布的数据显示，仅去年双十一期间，天猫精灵就有105万笔订单语音支付成功。不过，谷歌想要实现的，显然不仅仅是在自家的GoogleHome智能音箱上使用语音支付，而是瞄准了一个适应场景更广的智能语音助手。但是谷歌能想到的，亚马逊和阿里就不能想到吗？在智能语音助手上全面接入语音支付，无疑将大大提升用户体验。毕竟相较于人脸和指纹识别，声纹识别的便捷性要高很多。不过，亚马逊和阿里选择将这一功能限定在平时放置在家里的智能音箱上，这很可能是有深意的。语音不如指纹或面部信息可控。毕竟，用户可以决定是将手指放在指纹识别模块上，还是将脸放在摄像头前，但无法通过这种方式控制语音。传播。更重要的是，指纹信息难以采集。人脸识别通常需要搭载活体检测，而声纹识别不仅容易采集，而且很难判断用户说出支付指令时的状态。再加上AI技术全面普及，通过深度学习模型和波形编辑工具，可以拼接出指定内容的语音数据，几乎可以完整再现用户的声纹频谱。而且，语音支付的安全问题不仅限于客户端，服务端也面临着一定的风险。语音支付可以看作是一种数据交互。比如cookie机制采用的是在client端维护状态的方案，而Session（会话）机制采用的是在server端维护状态的方案。当用户第一次访问服务器时，会为客户端创建一个Session，并通过特殊算法计算出一个SessionID来标识对象。但由于语音支付不是一次性动作，用户下次需要使用SessionID完成与服务器的数据交互。但是SessionID的实现机制使其有可能被劫持，例如经典的XSS跨站脚本攻击、网络嗅探、代理劫持等攻击方式。如果SessionID被劫持，黑客就可以获得目标用户的合法会话，然后就可以像信用卡诈骗一样清空被盗钱包。所以这可能是谷歌自己承认如果反馈和性能过于负面，甚至可能不会向公众推出该功能的重要原因之一。因此，在谷歌解决关键的安全问题之前，购物体验张开嘴就能完成，或许暂时只能在智能音箱上实现。

上一篇：零基础10分钟看懂Hadoop架构原理，阿里架构师详解

下一篇：百度大牛总结出十道Python面试题，考验你的真实水平

谷歌测试语音支付，真的可以张开嘴支付吗？相关文章