当前位置: 首页 > 科技赋能

解读FB自学习AI产品Deeptext,能读懂你的聊天内容

时间:2024-05-22 18:28:12 科技赋能

文章|海中天先是微软,然后是Facebook,然后是谷歌。

互联网科技巨头都在追求同一个未来:聊天机器人。

这些公司承诺,将来你可以像与朋友和家人聊天一样使用互联网服务聊天。

机器人可以快速回答问题、回应问题,甚至预测您的需求。

然而,科技公司仍然面临着一个巨大的挑战:开发能够真正聊天的机器人。

在某种程度上,机器确实可以模仿对话,但距离真正能够像人类一样进行交流还很远。

上个月,谷歌开放了其自然语言理解工具,最近Facebook推出了DeepText,这也是一个自然语言引擎。

Facebook尚未开放该技术,DeepText目前仅用于Facebook自己的服务中。

在开发系统时,Facebook 的目标是减少对人类的依赖,更多地依赖数据——大量在线可用的数据。

谷歌和 Facebook 都使用深度神经网络来推进自然语言技术。

深度神经网络已经在许多其他在线服务中证明了自己,例如识别图片和确定智能手机语音命令。

企业希望通过分析大量数据,由软件和硬件组成的深度神经网络能够学习离散任务,以自然的方式学习、理解和响应语言。

谷歌的新开源系统名为 SyntaxNet,它使用神经网络来理解给定语句的语法逻辑。

Facebook 研究人员相信他们已经准备好将尖端技术应用到新领域。

Facebook 工程总监 Hussein Mehanna 表示:“DeepText 帮助我们弥补了标记数据集的缺点。

它拥有大量的架构,可以以无监督的方式进行学习。

”换句话说,Facebook的系统更多地依赖数据,而不是精确的语法。

深度学习初创公司 Skymind 的创始人 Chris Nicholson 解释道:“Facebook 的意思是,他们不必向神经网络传授有关语言架构的所有知识。

”这非常重要,Nicholson Sen 补充道,Facebook 可以构建更具弹性的系统:可以在许多不同环境中扩展和使用的系统。

Facebook 系统可以像学习英语一样学习法语和西班牙语——将语言分解为数学。

Mahoney 表示 DeepText 已经可以处理 20 种不同的语言。

过去,研究人员使用复杂的编码规则来开发神经语言引擎,既困难又耗时。

苹果的Siri就是这样开发的。

如果谷歌和 Facebook 等公司能够构建自己的学习系统,那么他们就可以开发自动增长的系统。

人为干预越多,系统就会变得越智能。

我们还不能这样做。

Facebook 的方法仍处于早期发展阶段。

真的有效吗?并非所有人都相信。

华盛顿大学计算机科学家、神经语言理解专家诺亚·史密斯 (Noah Smith) 阅读了 Facebook 最近发布的一份研究报告。

史密斯表示,要想达到通过无标签数据理解语言的水平,Facebook 的系统很难做到,离目标还很远,而且他并不认为 Facebook 的做法有什么特别令人兴奋的地方。

尽管如此,史密斯和其他人仍然相信这项研究的方向是正确的。

马哈尼表示,今年夏天,Facebook将发布一份与DeepText相关的新研究报告。

该公司目前正在测试工具,使 DeepText 成为 Facebook Messenger 的内部驱动程序。

马哈尼还解释说,当你与朋友和家人交谈时,系统会帮助用户识别你何时想要拨打电话。

我们有理由相信Facebook在研究方面有优势,因为它拥有“数据”。

要学习自然语言,你必须拥有大量的自然语言——数字形式的自然语言。

不久前,使用该语言还很困难。

Facebook 拥有大量数字自然语言,因为社交网站上每天都会发生无数的真实对话。

马哈尼表示,每分钟,网民在Facebook上创建40万个新帖子,每天有1万条帖子评论。

开发 DeepText 的目的 在 Facebook 上,文本是主要的交流方式。

理解不同的文本形式无疑将改善Facebook的产品体验。

如果用户想要查看更多内容,Facebook 可以显示更多内容;如果用户不喜欢这些内容,Facebook 可以对其进行过滤。

正是因为这个目标,Facebook 开发了 DeepText,这是一个深度学习文本理解引擎。

该引擎每秒可以理解数千条纯文本内容的帖子——准确度接近人类。

它已经涵盖了20多种语言。

DeepText集成了多种深度神经网络架构,包括卷积神经网络和循环神经网络,并且能够进行词汇级和字符级学习。

Facebook 使用 FbLearner Flow 和 Torch 进行模型训练。

只需单击按钮即可通过 FBLearner Predictor 平台训练模型,该平台具有可扩展且可靠的模型分发基础设施。

DeepText还可以提供自助服务架构,Facebook可以通过该架构轻松开发新的DeepText模型。

为什么要深度学习?文本理解包括许多任务,例如对文本进行分类、确定帖子的内容(例如,关于篮球)以及识别标题(例如运动员姓名、比赛统计数据和其他有意义的信息)。

为了像人类一样理解文本,我们需要训练计算机理解行话并感知词汇歧义。

例如,如果有人说“我喜欢黑莓”,他是指黑莓是一种水果还是一种设备?理解 Facebook 文本需要解决一些棘手的问题,而传统的 NLP(神经语言编程)技术不起作用。

利用深度学习,Facebook 可以更好地理解多种语言的文本,并更有效地利用标记数据——比传统的 NLP 技术更高效。

更快地理解语言 Facebook 社区是全球性的,DeepText 理解尽可能多的语言至关重要。

传统的NLP技术需要大量的预处理逻辑,并且基于复杂的工程和语言技术。

每种语言也存在差异,因为人们使用俚语并使用不同的拼写来传达相同的含义。

通过深度学习,我们可以减少对独立语言知识的依赖,因为系统可以从文本中学习,无需或只需进行最少的预处理。

这样,Facebook 只需要进行轻微的工程调整就可以快速学习多种语言。

更深入的理解根据传统的NLP方法,词汇需要转换成计算机算法可以理解的格式。

例如,单词“brother”可能有一个整数ID,而单词“brother”可能有另一个整数ID,例如65。

为了便于理解,训练数据中的每个单词必须具有特定的拼写形式。

在深度学习中,我们可以使用“词嵌入”方法,这是一个保留词之间语义关系的数学概念。

如果我们的计算正确的话,嵌入“brother”和“brother”的词在空间上应该非常接近。

这样,我们就可以深入理解单词的语义关系。

在 Facebook 上测试 DeepText 到目前为止,DeepText 已经在 Facebook 上进行了一些体验测试。

例如,Messenger 比过去更能理解某人想去某个地方的意愿。

DeepText可以检测用户的意图,进行实体提取,并理解用户的陈述“我刚刚下了出租车”并不意味着他正在寻找出租车。

Facebook 已开始使用高度准确的多语言 DeepText 模型来帮助人们找到合适的工具。

例如,如果有人发布类似以下内容:“我想出售一辆旧自行车,以美元定价,有人感兴趣吗?” DeepText 将检测有关出售物品的帖子并提取一些有用的信息,例如出售哪些物品以及它们的定价是多少。

,允许卖家使用现有工具更快地完成交易。

DeepText可以掌握帖子的意图、情感和实体(如人物、地点、事件),理解混合内容信号,如文本和图像,并自动消除一些不适当的内容,如垃圾邮件,以更好地理解内容。

下一步,Facebook正在努力优化DeepText技术。

DeepText团队正在与Facebook AI研发团队合作,提升该技术的应用能力。

以下是一些例子: 1. 更好地了解人们的兴趣 在 Facebook 的个性化用户体验中,根据兴趣推荐内容是非常重要的一环。

为了实现其目标,Facebook 需要将文本映射到任何给定主题,这涉及大量标记数据。

尽管这些数据很难手动生成,但 Facebook 找到了另一种方法:使用公共 Facebook 页面以半监督标签的形式生成大型数据集。

可以合理地假设页面上的帖子是关于某个主题的,例如,钢人队页面上的帖子包含有关球队的文本。

通过这些内容,Facebook 训练了一个名为 PageSpace 的通用兴趣分类器。

分类器的底层技术是DeepText。

这项技术还可以进一步优化其他 Facebook 体验中的文本理解系统。

2. 共同理解文本和视觉内容。

大多数人在发布图片或视频时都会添加一些描述性文字。

很多时候,理解意图需要理解文本和视觉内容。

例如,一位朋友发布了一张照片,告诉别人自己刚刚生了孩子,上面写着“25号”。

显然这位朋友正在分享家庭消息。

DeepText 团队正在与 Facebook 视觉内容理解团队合作开发新的深度学习架构,学习如何从文本和视觉内容中理解意图。

3.新的深度神经网络架构我们继续对新的深度神经网络架构进行研究和调查。

贝叶斯正则化神经网络似乎运行良好。

其分类时的错误率低于卷积神经网络和递归神经网络。

在某些情况下,错误率低至 20%。