【图片来源:venturebeat楼主:venturebeat】本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。即使是最好的文本解析推荐算法也会受到一定大小的数据集的阻碍。为了提供比大多数现有方法更快更好的分类性能,麻省理工学院-IBM沃森人工智能实验室和麻省理工学院几何数据处理组的一个团队设计了一种流行的人工智能工具组合,例如嵌入式和优化传输技术。他们争辩说,这种方法只要考虑单个人的历史偏好,或者一群人的偏好,就可以涵盖数百万种可能性。“互联网上有很多文章,任何有助于编织这些材料的东西都非常有用,”该研究的主要作者、麻省理工学院助理教授贾斯汀所罗门在一份声明中说。为此,贾斯汀·所罗门(JustinSolomon)和他的同事使用算法根据集合中的常用词将文本集合归纳为主题。接下来,它将每个文本分为5到15个最重要的主题,并显示每个主题对整个文本的重要性。此外,嵌入(在这种情况下是单词的数据表示)有助于使单词之间的相似性变得明显,而最佳传输有助于计算如何在多个目的地之间移动对象。(或数据点)以最有效的方式。同时,嵌入使得“利用两个最优转移”成为可能:首先比较集合中的主题,然后测量共同主题的重叠程度。研究人员说,这种方法在扫描大量书籍和文件时特别有效。在对GutenbergProject数据集中的1,720个标题进行评估时,该算法设法在不到一秒的时间内比较了所有标题,比次优的快了近800倍。此外,该算法在对文档进行分类方面比其他方法做得更好。例如,按作者对古腾堡数据集中的书籍进行分组;或按部门对亚马逊上的产品评论进行分组。同时,该算法还提供了一个主题列表,可以向用户解释为什么推荐给定的文档,便于用户理解。然而,研究人员并没有满足于他们的成就。他们还将继续开发一种端到端的训练技术,联合优化嵌入、主题模型和最优传输,而不是像当前实施那样单独进行。在应用方面,他们也希望将他们的方法应用于更大的数据集,研究图像或3D数据建模的应用。在一篇论文总结工作报告中,JustinSolomon说(我们的算法)似乎以与要求人类比较两个文档相同的方式捕捉差异:首先将每个文档分解为易于理解的概念,然后比较这些概念......····对于进一步的想法,JustinSolomon说:让wordembeddings提供全局的语义语言信息,让topicmodels提供特定于语料库的topic和topic分布。根据经验,这些因素结合起来可以在各种基于指标的任务中提供出色的性能。
