当前位置: 首页 > 科技观察

谷歌测试语音支付,真的可以张开嘴支付吗?

时间:2023-03-19 14:56:12 科技观察

随着科技的进步,移动支付的方式日新月异。从之前繁琐的密码输入,现在有了更方便、更安全的方法。指纹和人脸识别。然而,在智能手机上已经很普遍的声纹识别却很少被应用到支付领域。近日,有消息称,谷歌已经开始在其产品中实现“张嘴支付”的语音支付功能。据相关媒体报道,谷歌目前正在测试一项新功能,该功能将允许消费者使用VoiceMatch来授权和确认付款。谷歌还证实,并非所有购买都会提供语音识别。现阶段,该功能仅适用于应用内购买和餐厅订单,不适用于谷歌购物(GoogleShopping)。报道称,这项语音支付功能原计划在今年的I/O开发者大会上发布,但受疫情影响,只能跳过发布,直接开始测试。目前,在谷歌助手(GoogleVoiceAssistant)的支付界面,可以看到“通过语音匹配确认”的选项。事实上,语音支付的技术并不新鲜,甚至比语音助手所依赖的自然语言处理(NLP)还要古老。是的,虽然语音支付和自然语言处理都与语音有关,但它们有很大的不同。语音支付的本质是声纹识别,但声纹识别显然不等于语音识别。声波传输是一种以声音为传输方式的数据通信方式。例如,说话的过程可以理解为将信号编码成声音的过程。听的过程就是把音频信号解码成语言的过程。所使用的汉字与拼音的对应关系,实际上相当于音频协议。然而,声纹识别是人格识别。需要提取语音中的声纹特征来判断谁在说话,即解决“谁在说话”的问题。语音识别是普通识别,判断语音的内容,解决“说了什么”的问题。显然,语音支付中最重要的是判断谁在说支付指令。由于每个人发声器官的大小和形状可能并不完全相同,这些差异也会导致发声气流的变化,进而导致声纹的差异。这就是为什么我们可以“未见人而闻声”。通过音色、音调和说话习惯,我们可以判断出声音拥有者的身份。因此,该算法也可用于提取语音信息中明显的、抽象的、高维的声纹。特征,并用深度学习训练模型,然后用独特的生物特征来证明“我是我自己”这个命题。其实,利用声纹识别完成语音支付的过程非常简单。即用户发出带有一定命令的声波,终端设备获取声波并转化为会话(Session),将具体的商品信息和交易号发送给Google后台,可以匹配服务器端的声纹信息。开始交易操作,最后将完成的交易信息推送给谷歌语音助手。在谷歌这次确认测试语音支付之前,亚马逊去年秋天就已经开始允许用户使用语音指令在自家的Alexa上支付账单。账单金额将使用AmazonPay支付,并通过用户注册的手机号码发送确认信息。此外,国内市场的天猫精灵早已可以使用语音支付。阿里巴巴公布的数据显示,仅去年双十一期间,天猫精灵就有105万笔订单语音支付成功。不过,谷歌想要实现的,显然不仅仅是在自家的GoogleHome智能音箱上使用语音支付,而是瞄准了一个适应场景更广的智能语音助手。但是谷歌能想到的,亚马逊和阿里就不能想到吗?在智能语音助手上全面接入语音支付,无疑将大大提升用户体验。毕竟相较于人脸和指纹识别,声纹识别的便捷性要高很多。不过,亚马逊和阿里选择将这一功能限定在平时放置在家里的智能音箱上,这很可能是有深意的。语音不如指纹或面部信息可控。毕竟,用户可以决定是将手指放在指纹识别模块上,还是将脸放在摄像头前,但无法通过这种方式控制语音。传播。更重要的是,指纹信息难以采集。人脸识别通常需要搭载活体检测,而声纹识别不仅容易采集,而且很难判断用户说出支付指令时的状态。再加上AI技术全面普及,通过深度学习模型和波形编辑工具,可以拼接出指定内容的语音数据,几乎可以完整再现用户的声纹频谱。而且,语音支付的安全问题不仅限于客户端,服务端也面临着一定的风险。语音支付可以看作是一种数据交互。比如cookie机制采用的是在client端维护状态的方案,而Session(会话)机制采用的是在server端维护状态的方案。当用户第一次访问服务器时,会为客户端创建一个Session,并通过特殊算法计算出一个SessionID来标识对象。但由于语音支付不是一次性动作,用户下次需要使用SessionID完成与服务器的数据交互。但是SessionID的实现机制使其有可能被劫持,例如经典的XSS跨站脚本攻击、网络嗅探、代理劫持等攻击方式。如果SessionID被劫持,黑客就可以获得目标用户的合法会话,然后就可以像信用卡诈骗一样清空被盗钱包。所以这可能是谷歌自己承认如果反馈和性能过于负面,甚至可能不会向公众推出该功能的重要原因之一。因此,在谷歌解决关键的安全问题之前,购物体验张开嘴就能完成,或许暂时只能在智能音箱上实现。