AI可以从系统级的高性能计算思维中学习的七个教训。每个组织都将使用AI技术,或者应该使用。人工智能对企业利润和竞争优势的潜在积极影响不容忽视。如今,高性能计算(HPC)中心是支持大规模高性能应用程序(包括大规模人工智能)的专家。无论组织已经在实施人工智能,还是处于探索/思考的早期阶段,都可以从高效的高性能计算(HPC)企业中吸取一些教训。DigitalTrends2019年的一项调查发现,自去年以来,表示已经在使用人工智能的大型企业的比例增加了50%,从2018年的24%增加到2019年的36%。只有26%的组织表示没有计划投资人工智能(低于前一年的35%)。考虑到当前管理层对AI的思考,这也许并不奇怪。根据普华永道的调查报告,72%的企业高管认为人工智能将成为未来的商业优势。如果客户对您的业务至关重要,您可能会关注2019年数字趋势调查报告,客户体验(CX)领导者在其组织中使用人工智能的可能性几乎是其他公司的两倍。随着组织发现自己被迫评估和/或部署AI项目,他们需要帮助避免转向系统级思维。高性能计算(HPC)-借用不妨碍工作的习惯一台计算机或工作站来解决科学、工程或商业中的主要问题。人们可以从高性能计算(HPC)社区的经验中学习,以使其所有系统运行得更好。当然,高性能计算(HPC)具有一定的神秘性,并且具有明确的文化。但每个企业都可以从采用训练有素的方法来导航AI、机器学习和高性能计算(HPC)计算需求和机会中受益。高性能计算(HPC)与大规模数据中心的区别在于“相对计算的扩展”的概念。如果房地产与位置有关,那么高性能计算(HPC)与扩展有关。并行编程,尤其是高性能计算(HPC)中的一个常见问题是衡量应用程序的扩展效率(通常称为可扩展性)。此测量显示了应用程序在使用越来越多的并行处理单元(处理器、GPU、ASIC、FPGA等)时的效率。同样,良好的AI部署真正重要的是扩展,而答案并不是高性能计算(HPC)系统的精确复制品。有效的IT组织可以为寻求更广泛地使用AI的组织指明方向。与高性能计算(HPC)专家协商的最重要的共同点:系统级思维很重要。由于这有些宽泛和模糊,这里有七个关键经验教训,企业可以深入挖掘这些经验教训并将其提炼为有效的高性能计算(HPC)组织的七个关键经验教训。1.收购活动的重大投资如今收购了大量高性能计算(HPC)系统,但也很有可能有些系统处于闲置状态,因为没有时间对其进行认真评估。企业可以通过研究高性能计算(HPC)中心获得很多见解,这些中心在投资新的超级计算机时总是在寻找机会、复杂性和风险。几年前,行业专家发表了一篇名为《最佳高性能计算(HPC)经理如何制定最佳采购决策》的文章,重点介绍了旨在“降低采购风险”的努力。这隐含地包括在购买后多年保持理智的需要。为什么有人会聘请外部专家来帮助采购?NumericalAlgorithmsGroup(NAG)高性能计算(HPC)副总裁安德鲁·琼斯(AndrewJones)解释了构建内部能力的意义所在:“许多企业都有能力在内部完成这项工作。工作。我们帮助建立能力和经验,发展他们的团队,并增加他们的能力和经验。大多数客户每两年只购买一台新机器,而我们则持续参与高性能计算(HPC)规划和采购项目。他们获得了多年的丰富经验,而不仅仅是我们与客户共度的几天或几周。”不应忽视在与内部利益相关者、供应商的采购讨论和详细的技术调查中投入大量时间的价值。即使企业不投资在聘请外部专家时,正常工作之外的投资是什么?如果没有,失败的是什么?行业专家之间的对话一再回到坚持需要进行深入和诚实的竞争评估(组织自己的capabilitiesanddisadvantages),requirements/benchmarks,TCOandtiming.下面讨论benchmarking和timing作为高性能计算(HPC)接下来两课的重要性。2.Investindevelopmentanduseofunbiasedrequirements/benchmarks是关键投资决策与组织的需求和目标密切相关。实现这一目标的一个关键方法是“基准测试”。这确实它不是指行业标准,而是代表企业期望在其采购的机器上运行的实际工作负载的基准。企业不应该关心他们的机器运行供应商喜欢炫耀的应用程序的速度有多快——企业关心的是内部的重要应用程序。让供应商和企业对提议的系统进行基准测试是一项共同努力。企业的潜在采购量越大,供应商可能需要付出的努力就越多。提供机器访问和协助是潜在客户对供应商的常见要求——不要害羞地提出要求。但是决定基准应该是什么以及应该如何解释基准取决于业务本身,而且这是一项重要的工作。请务必记住,基准测试只是实际工作负载的近似值。但是,如果使用得当,它们可以提供有价值的数据,说明对业务很重要的工作负载的可能性能,以及获得该性能所涉及的困难。根据2019年数字趋势调查,当今组织中55%的人工智能使用主要集中在数据分析上。在进行基准测试时,企业需要将基准权重与实际操作相匹配。这比听起来更难做到。具有高性能计算(HPC)采购经验的人员可以就如何处理此问题分享他们的想法。AndrewJones分享道:“我们避免将采购选项标记为好或坏。与性能数据本身一样重要的是确定实现该性能所需的努力,以及对性能背后的架构的理解。特别是,我们试图找到将购买决策与实际需求的风险联系起来的信息。”这在业务体验中非常重要——仅仅因为代码可以运行得很快,并不意味着机器会运行得那么快.对机器上运行的东西进行真实的评估比想象机器上运行的东西更重要。更多地参考“现代化努力”,这个问题需要以不同的方式重新审视。由于没有企业运行单一代码——系统评估需要在考虑选项时考虑性能可能性和潜在性能损失的权衡。企业的最佳选择通常是在大多数应用程序上“足够好”的系统,在小的应用程序上表现出色工作负载的数量,但在一些不太重要的应用程序上可能会很慢。为此,企业需要最好的批判性思考者,并需要将他们付诸实践。过于关注系统如何改进在一个基准上,不应阻止人们看到更大的图景,特别是如果增加需要额外的购置、部署和支持成本。那么额外的成本是否可以用于更广泛地提高性能?3.仔细考虑时间并明智地计划各种技术可用性的时间会影响能力和竞争。太早或太晚应用技术都会严重影响竞争力。分阶段交付可能是升级系统以使用新技术的有力选择。股票经纪人可以讲述成本和价值平均,这同样适用于计算,在不断增加投资的过程中,能够让企业在指导未来步骤时学习。了解供应商的长期路线图对于管理风险很重要。知名记者NicoleHemsoth写道,等待可能很重要。美国国家海洋和大气管理局(NOAA)敏锐地意识到人工智能可以提供帮助,但需要仔细考虑。她还指出,“评估过程与大公司没有什么不同,它们看到了采用人工智能的好处,但需要仔细考虑它的适用方式和适用范围,以及它是否足够坚固和稳定以满足关键系统的要求。“要求。”Tractica预测,在人工智能广泛采用的推动下,到2025年全球软件收入将达到每年1058亿美元(相比之下,2018年仅为81亿美元)。他们预测电信、消费者、广告、商业服务、医疗保健和零售将成为前六大采用者。这意味着拥有多年发展计划可能是一个优势。4.支持应用并向用户学习这并不是说IT部门不支持他们的用户。但话虽如此,许多IT组织缺乏资金或章程来支持AI等新兴用途。这造成了一个在高性能计算(HPC)世界中不太常见的差距。如果人工智能对企业很重要,那么第一步应该是与用户和供应商合作,寻找支持企业拥有的系统需求的方法。然后人们可能会惊讶地发现使用现有系统效果很好,并且能够从中学习和成长是一个巨大的好处。令人惊讶的是,这经常被忽视为资源和试验场。即使在学习过程中,IT和用户之间也经常会出现脱节。与大多数高性能计算(HPC)组织一样,活跃的IT组织密切参与支持和了解系统最重要的工作负载。如果Python或Tensorflow对企业用户很重要,是否了解如何为部署的平台获得最优化的版本?5.协调一个实用的代码现代化计划每当技术和机器快速发展时,代码也需要发展。代码现代化是一种编写可扩展代码的方法,它使用多级并行性来充分利用现代硬件性能。人们将看到在高性能计算(HPC)社区中继续讨论和推广代码现代化的程度,以及它产生的积极影响。致力于采用高性能计算(HPC)的企业在开源代码上投入巨资,并致力于为新系统改进开源代码。几年前,AndrewJones在英特尔并行计算中心(IntelPCC)工作,该中心的资金用于更新多核处理器的开源项目,AndrewJones与人合编了两本由世界知名的Teams工作的书籍,修改开源代码以实现现代化。在这段旅程中,代码现代化比它最初看起来要重要得多,这是可以给IT组织上的重要一课,无论现代化的实际工作是在内部完成的,希望是开源的,还是从外部付费的.它也可以是以上所有的混合。有了这些见解,企业就知道代码现代化对于人工智能的采用也很重要。高性能计算(HPC)应用程序的经验表明,未能对代码进行投资(尤其是在技术变化迅速的情况下)往往会增加供应商锁定。与供应商锁定相比,企业花钱改进自己的代码可能会更好。6.将云与无云视为一种平衡行为,而不是一种选择尽管一些供应商大肆宣传,但“云中的HPC”概念并没有停止对HPC硬件的投资。根据Intersect360Research的一份报告,2018年大多数高性能计算(HPC)预算要么增加(46%)要么与上一年持平(38%),商业网站的增长最为强劲。这强化了一个事实,即计算基础设施方面的专业知识是必须的。基于云的服务,包括AWS、谷歌、Azure等,为实验和早期部署提供了各种平台。这可以延迟对基础设施专业知识的需求,并为该专业知识提供在组织内发展的机会。虽然基于云的AI无疑是技术孵化的重要场所,但随着AI计划的规模扩大,企业发现自己需要构建和维护基础设施。这对高性能计算(HPC)专家来说应该不足为奇。当成本、性能和大量数据都很重要时,拥有自己的计算基础架构专业知识就更为重要。忽视这种对专业知识的需求是有风险的。7.总拥有成本(TCO)-不仅仅是从HPC中吸取的经验教训,关注获得性能的成本(评估基准)、安装时间(现在将获得什么好处,而不是等待)和收购投资要实现真正平衡的现代化和现代化方法,将涉及总拥有成本。整个系统问题的一部分需要安全性,它也不是特定的高性能计算(HPC)问题(尽管HPC中心考虑了很多)。总拥有成本(TCO)是第七个经验和教训,虽然TCO当然不是HPC独有的,但对HPC来说肯定是非常重要的。没有什么比考虑整体情况更能体现“系统方法”了——硬件、软件、应用程序、安全性和人员。系统的价值是企业从中获得的净收益,而不是实施它所投入的资本和费用(TCO)。以系统方法为中心的七项经验和教训经验丰富的高性能计算(HPC)中心在支持大型高性能系统的获取和运行方面取得了巨大成功。有效的系统方法是他们成功的关键。事实证明,这些是任何企业大规模支持AI的关键技能。在深入了解这七个教训时,将采用一种系统的方法:投资于采购活动,开发和使用公正的基准,仔细考虑时间安排,大量投资于支持应用程序和用户社区,制定现代化代码计划,以及管理总拥有成本。这些高性能计算(HPC)的经验教训可以为企业提供更多的帮助。但企业并不都需要成为高性能计算(HPC)爱好者。
