莱斯大学的研究团队将在本周的SIGMOD数据管理国际会议上介绍PlinyCompute。 每一个精疲力尽的程序员都在像Spark这样的“大数据”平台上努力实现复杂的对象和工作流,他们都在思考“有没有更好的方法?”由美国国防高级研究计划局(DARPA)资助的莱斯大学Pliny项目的计算机科学家认为,他们现在有了可以让程序员受益的解决方案。 PlinyCompute的徽标 莱斯大学的PlinyCompute将于周四在ACMSIGMOD2018上亮相。在同行评审的会议论文(https://dl.acm.org/citation.cfm?id=3196933)中,该团队将PlinyCompute介绍为“一个致力于开发高性能大数据代码的系统”。与Spark一样,PlinyCompute的目标是易于使用和多功能,莱斯大学计算机科学教授ChrisJermaine说,他领导了该平台的开发。与Spark不同,PlinyCompute旨在支持以前只有超级计算机或高性能计算(HPC)才能实现的强大计算。 Jermaine说:“通过机器学习,尤其是深度学习,人们正在看到复杂的分析算法在应用于大数据时可以做什么。从《财富》500名高管到神经科学研究人员,每个人都渴望越来越复杂的算法,而今天系统程序员满足这种需求的方式在很大程度上很差。虽然HPC可以提供这种性能,但学习为HPC编写代码需要数年时间;也许更糟不幸的是,使用Spark可能需要数天才能创建的工具或库可能需要数月才能在HPC上进行编程。” 他说,“Spark是为大数据而构建的,它支持HPC无法支持的事情。简单的负载平衡、容错和资源分配等特性对于数据密集型任务来说是绝对必要的。正因为如此,并且由于开发时间比HPC短得多,人们正在构建可以在Spark上运行的新工具,用于机器学习和图形分析等复杂任务。 莱斯大学的研究科学家、描述PlinyCompute的ACMSIGMOD论文的主要作者邹佳表示,由于Spark在设计时并没有考虑到复杂的计算,它的计算性能只能提高到这一点。 邹佳在2015年进入莱斯大学之前,曾在IBM中国研究院学习了六年的大规模分析和数据管理系统。她说:“Spark建立在Java虚拟机,即JVM的基础上,JVM负责管理运行时环境并提取有关内存管理的大部分细节。Spark依赖于JVM,因此其性能受到影响,尤其是在为深度学习训练深度神经网络等任务的计算需求增加时。 莱斯大学计算机科学家ChrisJermaine领导PlinyCompute项目 Zou说:“PlinyCompute与众不同,因为它完全是为高性能而设计的。我们在基准测试中发现PlinyCompute的速度至少是Spark的两倍;在某些情况下,实现复杂的对象处理和库式计算比Spark快50倍。 她表示,测试表明PlinyCompute在构建高性能工具和库方面优于同类工具。 Jermaine说,并不是所有的程序员都会觉得为PlinyCompute编写代码很容易。与Spark所需的基于Java的编码不同,PlinyCompute库和模型必须用C++编写。 Jermaine说:“PlinyCompute具有更大的灵活性。对于C++经验和知识相对较少的人来说,这可能是一个挑战,但我们还对完成各种实现所需的代码行进行了并排比较。结果发现,在大多数情况下,PlinyCompute和Spark之间没有显着差异。 莱斯大学的研究科学家JiaZou是一篇介绍PlinyCompute的新同行评审论文的主要作者 Pliny项目于2014年启动,这是一项由DARPA资助的1100万美元的项目,致力于开发可以“自动完成代码”的高级编程工具和程序员的“自动更正代码”,就像软件完成搜索查询并更正网络浏览器和智能手机上的拼写一样。普林尼使用机器学习阅读数十亿行开源计算机程序,并从中学习;Jermaine说PlinyCompute就是从这个项目中诞生的。 他说:“这是一台计算复杂的机器。我们从一开始就意识到,像PlinyCompute这样的工具可以用来解决比我们用Pliny项目解决的问题范围更广的问题。” 有关安装和部署信息、API、常见问题解答、教程等,请访问plinycompute.rice.edu。 这项研究也得到了美国国家科学基金会(NSF)的支持。 PlinyComputeSIGMOD论文的其他作者包括:MatthewBarnett、TaniaLorido-Botran、ShangyuLuo、CarlosMonroy、SouravSikdar、KiaTeymourian和BinhangYuan,均来自莱斯大学。 莱斯大学的PlinyCompute团队包括(从左到右):ShangyuLuo,SouravSikdar、JiaZou、TaniaLorido、BinhangYuan、JessicaYu、ChrisJermaine、CarlosMonroy、DimitrijeJankov和MattBarnett。
