Spark自带机器学习和GPU加速作为ApacheSpark内存大数据项目的支持和开发合作伙伴,Databricks对自家的ApacheSpark云实现方案进行了两轮支持升级,旨在让更多IT用户享受它的便利。此次推出的新特性——GPU加速以及与多套深度学习库的集成——理论上可以让ApacheSpark在任何安装位置工作。不过,Databricks表示其版本还在调整阶段,这是为了避免资源争用导致实际使用功能复杂化。ApacheSpark本身并没有开箱即用的GPU加速,需要搭建一个系统来支持,这意味着用户需要面对多个复杂的组件。鉴于此,Databrick公司决定承担相关问题。Databricks还声称会减少节点间的资源争用量,从而保证Spark的运行能够最大程度发挥GPU集群的性能优势。这个思路看起来很像MIT的Milk库,同样是利用加速机制来并发处理应用,旨在保证内存相关的操作是批量执行的,最终实现系统缓存资源的最大化。使用。Databricks的设置可以保证各种GPU操作不会互相冲突甚至中断。另一个重要的节省时间的方法是直接访问许多流行的机器学习库,这意味着Spark可以用作数据源。其中包括Databricks自己的TensorFrames库,它允许TensorFlow库与Spark一起使用,同时实现GPU加速。Databricks曾发推称,其基础设施可以充分利用Spark自身的优势。它建立了一个免费层来吸引仍然对深入使用Spark持谨慎态度的客户,包括为其提供完整产品中的一些功能。根据InfoWorld网站此前发布的评测报告,Databricks的免费产品确实相当不错,也很好用。然而,市场竞争仍然相当激烈,尤其是考虑到Databricks需要面对微软(拥有Azure机器学习解决方案)、IBM和亚马逊等巨头竞争对手。因此,它必须找到一种可行的方法来保持和扩大服务对象的规模,着力打造自己独特的服务产品。除了增加机器学习和GPU加速等功能外,Databricks还需要确保开发计划中的新功能实际上会带来便利——而不是增加复杂性。原标题:Spark捡起机器学习,GPU加速,原作者:SerdarYegulalp
