当前位置: 首页 > 科技赋能

最智能的人工智能电视——小米电视4A是怎样炼成的?

时间:2024-05-22 11:03:05 科技赋能

上个月,小米发布了一款新电视——小米电视4A。

这次发布会距离小米电视4发布仅2个月,小米电视4A的发布还有一个小背景。

去年下半年以来,由于原材料价格大幅上涨,2月份小米电视3s的价格上涨了-元。

虽然新发布的小米电视4尚未上市,但4.9mm的厚度和超窄边框注定在价格上不会是“小米式”的产品。

小米电视4A被称为回归高性价比,但同时王川也给这款电视带来了一个新功能——人工智能。

这是“小米首款人工智能语音电视”。

发布会上,王川的示范赢得了观众的掌声,尤其是他对“小岳岳追车的场景”、“邓超和张天爱第一次见面的场景”等进行了指导。

小米电视4A准确跳转到对应屏幕。

这些惊人智能的背后,需要语音识别和自然语言处理的支持。

Triangle是为小米电视提供语义理解技术的公司。

近日,雷锋网采访了具体负责该项目的三角兽技术合伙人陈华荣,聊了他的专业经历、小米电视4A人工智能背后的秘密,以及语义理解在垂直领域的商业应用。

字段。

陈华荣,三角兽技术合伙人 陈华荣:从必应的问答系统到三角兽的聊天机器人 2006年,在中科院软件研究所获得计算机软件与理论硕士学位后,陈华荣加入微软,在北京工作以及微软西雅图总部。

2009年,他回到北京,在Bing部门负责中国、日本和韩国的Answer系统。

所谓Answer系统,为用户提供结构化的显示结果,使用户无需离开搜索引擎即可获得所需的信息。

如上图,当你搜索《芈月传》时,第一个搜索结果会直接出现该剧每集的信息、海报、简介和视频链接,并且它们来自两个不同的视频网站。

百度和谷歌也有类似的系统,通常以卡片的形式呈现给用户。

Answer系统与普通搜索结果最大的区别在于它追求的是准确性而不是关键词的相关性。

陈华荣向雷锋网解释,这主要依赖于工程师采集数据的准确性。

对于结构化数据,比如电视剧收视率,系统会直接抓取。

对于半结构化和非结构化数据,需要先捕获,然后进行语义分析,然后以结构化的方式呈现给用户。

对于视频信息,系统通过访问API直接显示来自视频网站的数据。

这项工作实际上与 Trigonon 目前关注的语义分析相匹配。

在微软这样的大公司,即使有小冰、Cortana这样的产品,一切也必须以微软的战略为中心。

这是陈华荣感到最压抑的地方。

因此,2009年,当三角兽CTO、陈华荣在微软的同事齐超被接洽时,他毫不犹豫地加入了后者。

将自然语言理解服务应用到更多领域,打造语义理解大脑是Triangle的愿景。

现在,Tricorn重点关注的领域之一,任务驱动的多轮对话是陈华荣负责的一项重要工作。

所谓任务驱动的多轮对话,是指用户带着明确的目的而来,通过自然语言交互快速解决自己的问题,比如点餐、看电影等。

多轮对话的目的在于,就像正常的人类聊天一样,一句话通常无法清楚地表达用户的需求。

这就需要系统通过反问和反复确认,一步步明确用户的需求,并返回结果。

这已经超越了简单的语义理解和信息检索的过程,而是在对话过程中不断明确需求的决策过程。

这也是聊天机器人解决实际问题的基础。

模糊语义识别:你记错了电视剧名,但我仍然可以给你正确的结果。

陈华荣告诉雷锋网,三角兽这次为小米电视4A准备了一套完整的语义理解解决方案,小米根据自身的产品需求和调度,主要选择了模糊语义理解和视频问答两部分。

回答。

所谓模糊语义识别,是指当用户输入模糊、不准确甚至错误的信息时,仍能提供正确的搜索结果。

由于小米电视采用语音交互方式,如果用户输入时语调不同,可能会出现错误的信息。

另外,当用户记忆不清楚时,常常会给出错误的搜索词。

陈华荣举了一个例子。

前段时间,有一部很火的电视剧叫《老公们的私房钱》,但用户可能会误记为《男人们的私房钱》。

这时,Tricorn的技术就可以返回正确的结果。

关于模糊语义识别的实现过程,陈华荣介绍,三角兽建立了视频领域语义纠错的语言模型,可以处理文字图像(半米)、模糊声音(小生客-小申)刻),以及具有相同发音的单词(小生克 - 小申克)。

路遥认识马丽——路遥认识马丽)、相似语义(男人——丈夫)等问题。

三角龙在此模型的基础上做了特殊处理,建立了索引数据库。

当用户的查询进来时,会通过纠错模型进行特殊处理,尽可能在数据库中召回相关视频;然后,在纠错模型的基础上,将排序模型的特征与纠错模型相结合。

大数据挖掘信息,如流行度、收视率等,对结果进行重新排序,从而正确检索用户正在寻找的视频并进行语义错误纠正。

这也是三角角能把“男人的私房钱”改成“丈夫的私房钱”,把《肖申克的救赎》改成“肖申克的救赎”的原因。

视频问答:剪刀手爱德华主演还出演过哪些电影?视频问答系统可以看作是一部影视百科全书,包含了视频介绍、演员百科、剧中角色、演员还演过哪些电影等各种信息。

这样,当用户使用时语音提出诸如“剪刀手爱德华的扮演者”之类的问题,系统都能给出正确答案。

然而,问答系统的作用远不止于此。

发布会上,小米也做了很多演示,有的时候,甚至超出了你的想象。

例如,“剪刀手爱德华的男主角还主演过哪些电影?”、“《肖申克的救赎》 是哪一天获得奥斯卡奖的?”、“李奥·迪卡普里奥何时获得奥斯卡奖?”等等,问答系统都能给你给出答案。

陈华荣告诉雷锋网,这些其实都是非常成熟的技术。

首先,这些说法并不难理解。

整个实施过程中最大的难点就是数据的提炼。

也就是说,需要从影视剧中提取各种信息,提取各种标签,然后通过检索和排序,来匹配用户的需求。

问答系统的实现过程与电影搜索类似。

唯一的区别是,在对用户指令进行语义理解后,不是直接返回答案,而是去数据库检索相关电影,并将结果重新排序后返回。

这个功能比较实用。

例如,你甚至可以直接要求电视查找“只有一个人主演的电影”、“主角一开始就死掉的电影”等(网上有很多资料,比如“电影中的主角一开始就死了”等)。

主角一开始就死了”,需要先被系统捕获,然后进行语义分析和信息提取。

)现在,大部分影视剧信息标注工作都可以自动化完成。

系统首先从影视剧官网、豆瓣、贴吧、各种评论中抓取信息,然后对这些信息进行挖掘,自动提炼信息。

此外,三角兽还将采用手动的方式标注一些知名的头部内容,以匹配用户更加多样化的自然语言搜索需求。

陈华荣还告诉雷锋网,未来三角兽还将与小米电视进行多轮对话合作,通过对话更精准地匹配用户更加个性化的需求。

例如,当用户发出指令“我想看《天龙八部》”时,系统会返回很多结果。

为了更好地了解用户,多轮对话系统会主动询问“你想看电视剧还是电影?”如果用户选择了电视剧后,系统可以再次询问用户想观看哪个版本,直到用户对结果满意为止。

在进行多轮对话时,自然语言处理系统的一个关键步骤是跟踪对话状态,即根据多轮对话确定用户当前目标是什么的过程。

在这个过程中,系统需要确认当前状态是否与之前的状态冲突,或者是否需要合并两个状态。

举个简单的例子,用户想看刘德华的电影,但对搜索结果不满意。

他可能会把目的改为“张学友的电影”。

此时系统已经根据两种状态的冲突情况进行了处理。

在结果中展示了张学友主演的电影;但是,如果用户说“张学友的电影”,系统将合并两个状态并显示刘德华和张学友主演的电影。

因此,在智能电视的应用中,对影视数据更加精细化的提炼以及对语境的准确理解是目前语义理解上的一个难点。

小米电视的应用已经是一个开始。

语义理解前景广阔:智能客服、商场导购、车载系统、机器人、音乐……除了任务驱动的多轮对话系统,Triangle关注的另一个领域是开放域聊天。

与针对用户特定需求的多轮对话系统不同,开放域聊天意味着系统可以回答用户的任何问题。

其目的更多的是建立情感联系,拉近与用户的距离。

在陈华荣看来,未来开放域聊天将成为多轮对话的标准。

如果没有前者,系统就会显得呆板、机械,很难给人智能感。

开放域聊天,结合多轮对话和智能问答,可以在很多领域有很好的应用。

目前,三角兽已在多个领域得到应用: 金融领域:恒生电子三角兽为此公司开发了客服机器人系统,为证券、银行、基金、期货等提供技术支持,帮助用户解决开户问题、股票、基金投资资讯等服务。

三角兽的客户服务系统的优势在于其语义理解系统,可以分析各种各样的用户问题,了解用户的真实意图,然后与企业问答数据库中的答案进行对应。

零售领域:香港新世界Tricorn提供智能问答和多轮对话系统。

例如,在商场,系统会推荐热门餐厅,当用户提出问题时,系统会提供进一步的指导,明确用户对中餐、西餐的需求,或者是想一个人吃饭还是一起吃晚饭。

目前主要通过微信公众号提供服务。

系统还集成了开放域聊天技术,用户也可以聊天。

媒体领域:光明网两会期间,三角兽为光明网“小明AI两会”提供技术支持(详见雷锋网此前报道),分析超过40万条相关媒体报道,官方报告对其进行培训。

我们从29万字中挖掘出近10个与两会相关的关键词,并据此为每位代表和委员编制了个性化报告。

车辆环境:威马汽车主要提供威马汽车预装的音乐和导航模块。

在陈华荣看来,车载环境是语义理解应用非常好的垂直领域。

因为这个环境比较封闭,所以用户的需求无非就是导航、寻找附近的银行、餐馆、打电话等。

2016年,有一款名为Vinci的所谓智能耳机产品引起了很多关注,但也引来不少批评。

现在,Vinci已经转而专注于语音交互,其背后的语义理解技术也由Triangle提供。

陈华荣还透露,三角兽正在与另一家大公司合作,更深入地进军音乐和智能音箱行业。

未来,Trianglemon的目标是消除银行网点柜台人员的需求,为老人和儿童提供情感支持,或者使用物联网设备通过自然语言控制各种家具和设备。