深度学习之后会发生什么？

时间：2023-03-17 17:29:53 科技观察

BigDataDigest来源：datasciencecentral编译：Min我们被困住了，或者至少我们停滞不前了。有谁还记得上一次在算法、芯片或数据处理方面没有取得重大显着进步的一年是什么时候？几周前去参加StrataSanJose会议，却没有看到任何引人注目的新进展，这真是太不寻常了。正如我之前报道的那样，我们似乎已经到了成熟阶段，我们现在的主要重点是确保我们所有强大的新技术都能很好地协同工作（融合平台），或者从那些大规模的VC投资中获得相同的收益的钱。我不是唯一注意到这一点的人。几位与会者和参展商都对我说了非常相似的话。就在前几天，我收到了一组知名研究人员的来信，他们一直在评估不同高级分析平台的相对优点，并得出结论认为没有值得报告的差异。我们为什么以及在哪里遇到麻烦？我们现在所处的位置实际上并没有那么糟糕。我们这两三年的进展，都是在深度学习和强化学习领域。深度学习为我们带来了处理语音、文本、图像和视频的惊人能力。再加上强化学习，我们在游戏、自动驾驶汽车、机器人等方面取得了长足的进步。我们正处于业务爆炸的早期阶段，基于诸如通过聊天机器人在客户交互中节省大量成本、个人助理和Alexa等新的个人便利应用程序、自适应巡航控制、事故避免移动和车道维护等个人汽车的二次自动化。Tensorflow、Keras和其他深度学习平台比以往任何时候都更容易访问，并且得益于GPU，比以往任何时候都更加高效。然而，已知的陷阱列表根本没有解决：需要太多标记的训练数据。该模型训练时间太长或需要太多昂贵的资源，并且可能根本无法训练。超参数，尤其是围绕节点和层的超参数，仍然是神秘的。自动化甚至公认的经验法则仍然遥不可及。迁移学习是指只能从复杂到简单，不能从一个逻辑系统到另一个逻辑系统。我相信我们可以列出更长的清单。正是在解决这些主要缺点时，我们已经陷入困境。是什么阻碍了我们在深度神经网络中的发展，目前的传统观点是，只要我们不断推动，不断投入，那么这些缺点就会被克服。例如，从80年代到00年代，我们知道如何让深度神经网络工作，只是我们没有硬件。一旦赶上，深度神经网络结合新的开源精神将开辟这个新领域。所有类型的研究都有自己的动力。特别是一旦你在一个特定的方向上投入了大量的时间和金钱，你就会继续朝着那个方向前进。如果您已投入多年时间来培养这些技能的专业知识，那么您就不太可能跳槽。改变方向，即使您不完全确定它应该是哪个方向。有时我们需要改变方向，即使我们不知道这个新方向到底是什么。最近，领先的加拿大和美国AI研究人员就这样做了。他们觉得自己被误导了，需要从根本上重新开始。GeoffreyHinton去年秋天阐明了这一见解，他在1980年代后期对神经网络主题的研究起着重要作用。Hinton现在是多伦多大学的名誉教授和谷歌的研究员，他说他现在对反向传播“深表怀疑”，这是DNN的核心方法。观察到人脑不需要所有这些标记数据来得出结论，Hinton说“我的观点是把它全部扔掉并重新开始”。因此，考虑到这一点，这里是对新方向的简要调查，这些方向介于绝对可以实现和几乎不可能之间，但不是我们所知道的深度神经网络的渐进式改进。这些描述有意简短，无疑会引导您进一步阅读以充分理解它们。看起来像DNN但没有与Hinton的反向传播密切相关的一系列研究，后者认为节点和层的基本结构是有用的，但连接和计算方法需要大刀阔斧的修改。我们先从Hinton自己的新研究方向——CapsNet说起再合适不过了。这与使用卷积神经网络进行图像分类有关。问题很简单，卷积神经网络对物体的姿势不敏感。也就是说，如果你要识别同一个物体，在位置、大小、方向、变形、速度、反射率、色调、纹理等方面存在差异，那么你必须分别为这些情况添加训练数据。在卷积神经网络中，这个问题是通过大量增加训练数据和/或添加最大池层来解决的，这可以泛化但只会丢失实际信息。下面的描述是Hackernoon对CapsNet的许多优秀技术描述之一。胶囊是一组嵌套的神经层。在普通的神经网络中，您会不断添加更多层。在CapsNet中，您可以在单个层中添加更多层。或者换句话说，将一个神经层嵌套在另一个神经层中。胶囊中神经元的状态可以捕获图像中实体的上述属性。胶囊输出表示实体存在的向量。矢量的方向表示实体的属性。该向量被发送到神经网络中所有可能的父母。预测向量是根据其自身的权重与权重矩阵相乘计算得出的。无论哪个父母拥有最大的标量预测向量积，都会增加胶囊的关联性。其余的父母降低了他们的结合性。这种基于协议的路由方法优于当前的机制，例如最大池化。CapsNet大大减少了所需的训练集，并在早期测试中显示出卓越的图像分类性能。Multi-GranularityCascadeForest二月份，我们介绍了南京大学软件新技术国家重点实验室ZhihuaZhou和FengJi的研究，展示了他们所谓的multi-GrainityCascadeForest。他们的研究论文表明，多粒度级联森林在文本和图像分类方面通常都击败了卷积神经网络和递归神经网络。好处是相当显着的。只需要一小部分训练数据。在桌面CPU设备上运行，不需要GPU。训练速度一样快，在许多情况下甚至更快，适合分布式处理。超参数少得多，并且在默认设置下表现良好。依靠易于理解的随机森林，而不是完全不透明的深度神经网络。简而言之，gcForest（多粒度级联森林）是一种决策树的集成方法，其中保留了深度网络的级联结构，但不透明的边缘和节点神经元被与完全随机森林配对的随机森林组所取代。在我们的原始文章中阅读有关gcForest的更多信息。Pyro和EdwardPyro和Edward是两种结合了深度学习框架和概率编程的新型编程语言。Pyro是优步和谷歌的作品，而爱德华来自哥伦比亚大学，由DARPA资助。结果是一个框架，允许深度学习系统衡量他们对预测或决策的信心。在经典的预测分析中，我们可以通过使用对数损失作为适应度函数来处理这个问题，惩罚自信但错误的预测（误报）。到目前为止，还没有深度学习的推论。例如，这可能会被用在自动驾驶汽车或飞机上，让控制人员在做出关键或致命的灾难性决定之前有一定的信心或怀疑感。这当然是你希望你的自动优步在你上车之前知道的事情。Pyro和Edward都处于开发的早期阶段。与深度网络方法不同，我经常遇到一些小公司，他们的平台以非常不寻常的算法为核心。在我催促的大多数情况下，他们都不愿意提供足够的细节，甚至让我描述你的情况。这种保密并没有使他们的效用无效，但在他们提供一些基准和一些细节之前，我无法真正告诉你里面发生了什么。当他们最终揭开面纱时，将这些视为我们未来的工作台。目前，我调查过的最先进的非DNN算法和平台看起来像这样。HierarchicalTemporalMemory(HTM)HierarchicalTemporalMemory(HTM)使用稀疏分布式表示(SDR)对大脑中的神经元进行建模并执行标量预测（未来值，如商品、能源或股票价格）之间的计算，并且优于CNN和异常检测中的RNN。这是PalmPilot传奇人物杰夫霍金斯在他的公司Numenta的奉献工作。基于对脑功能的基础研究，霍金斯追求的是强大的人工智能模型，而不是使用层和节点来构造DNN。HTM的标志是它发现模式的速度非常快，仅需要1,000次观察。这与训练CNN或RNN所需的数十万或数百万次观察完全不同。此外，模式识别是无监督的，可以根据输入的变化识别和概括模式的变化。这使得系统不仅在训练上非常快，而且具有自学习和自适应能力，不会被数据变化或噪声所迷惑。一些值得注意的渐进式改进我们开始关注真正的游戏规则改变者，但至少有两个渐进式改进的例子值得一提。这些显然仍然是经典的CNN和RNN，具有反向传播的元素，但它们的效果要好得多。(1)使用GoogleCloudAutoML进行网络修剪Google和Nvidia的研究人员使用了一种称为网络修剪的过程，通过去除对输出没有直接贡献的神经元来使神经网络更小并更有效地运行。这一进步最近作为谷歌新AutoML平台的重大性能改进而推出。(2)TransformerTransformer是一种新颖的方法，最初用于语言处理，例如语言到语言的翻译，这一直是CNN、RNN和LSTM的领域。谷歌大脑和多伦多大学的研究人员于去年夏末发布，它在各种测试中显示出显着的准确性改进，包括这个英语/德语翻译测试。RNN的顺序性质使得更难以充分利用GPU等现代快速计算设备，这些设备擅长并行处理而不是顺序处理。与RNN相比，CNN的顺序性要差得多，但是随着CNN架构中距离的增加，组合来自输入的遥远部分的信息所需的步骤数仍然增加。准确性的突破来自于“自我注意功能”的开发，该功能将步骤大幅减少为少量的恒定步骤。在每一步，它都应用自我注意机制直接对句子中所有单词之间的关系建模，而不管它们各自的位置。就像VC说的，也许是时候改变了。相关报道：https://www.datasciencecentral.com/profiles/blogs/what-c??omes-after-deep-learning)》]点此查看本作者更多好文

上一篇：655,000美元不翼而飞黑客从iCloud备份中获得MetaMask种子

下一篇：时隔三年，强大的希腊黑客团队PGA接受专访，揭秘黑客团队背后的故事

深度学习之后会发生什么？相关文章