在本文中,我们将帮助您的企业数据中心准备好并解决AI应用程序对本地和云基础设施施加的约束。同时,我们也采访了数据中心行业的同仁,请他们提供相关的指导和建议,包括强调企业数据中心和服务器供应商紧密合作的重要性,谁能尽快为您的企业提供Move从早期阶段到稳定的高级生产阶段,利用AI功能提供指导。企业数据中心该如何应对?IDC认为,目前正在考虑实施人工智能计划或正在从试验阶段走向更成熟的人工智能部署阶段的企业用户,可能需要随着时间的推移逐步推进实施计划,如下,我们将讨论几种AI与读者朋友一起开发方法。1.从小型人工智能项目逐步向中型人工智能项目推进对于计划从小型人工智能项目逐步向中型人工智能项目过渡的企业用户,我们建议在内部开发解决方案。这种方法有很多优点。通过协作实验,企业的开发人员、业务部门、数据分析师或数据科学家以及基础设施团队将能够获得重要的新技能,同时为企业创建量身定制的解决方案。数据分析师和数据科学家可以准备数据集和相关模型,开发人员可以测试框架,基础架构团队可以评估在什么硬件上开发以及在生产中使用什么,企业将有机会设置解决方案参数。但是,我们建议仅将此方法用于独特的AI项目。如果企业需要的解决方案作为商业软件在市场上很容易获得,那么商业软件包通过实现快速部署所带来的商业优势远远超过内部开发的好处。IDC建议企业从小型和企业本地项目计划开始。趋势将是从与环境的其余部分隔离的专用服务器开始,但也意识到集成最终将变得重要。如果有AI训练组件,那么环境将需要访问用于训练的数据,并且硬件需要能够进行强大的并行处理,理想情况下具有足够数量的加速器,例如图形处理单元(GPU)).环境可以由AI解决方案倾向于支持的集群组成,甚至可以由具有多个节点的融合系统组成。但是,对于第一代AI基础架构,横向扩展服务器中的硬分区也可以工作。虚拟机或超融合系统不太适合。如果数据对业务至关重要,则托管数据的横向扩展企业服务器中的硬分区可能很有用,因为组织不需要将数据移出其安全环境。请注意,有许多仅在Linux上运行的AI开发开源框架。一旦企业用户对基础设施团队、开发团队和数据科学家的解决方案感到满意,就可以将解决方案运行到生产中,并能逐渐体验到软硬件的能力和局限性,企业将能够更好地确定下一步去哪里。这些后续步骤可能包括继续构建本地功能;实施升级或扩展基础设施;添加云组件或聘请其他服务提供商,例如VAR经销商或顾问。在此试错阶段,您的基础设施团队彻底调查新的基础设施解决方案至关重要。如前所述,人工智能系统在单核和双核服务器集群上运行良好,每个集群都具有高性能和I/O参数以及GPU等加速器。团队不仅应考虑从其传统供应商处采购服务器产品,还应考虑从其他服务器供应商处采购服务器产品,尤其是那些提供完整AI硬件/软件堆栈的服务器供应商。其中一些供应商能够在部署AI系统的所有阶段为企业用户提供帮助,从硬件选择和优化,到软件堆栈,再到后期部署和咨询服务。我们建议企业客户寻找对AI和深度学习基础架构要求有深入了解的供应商。确保您的企业服务器供应商可以在第一个实验阶段提供相关建议,即使这个阶段部署在企业现有的硬件设备上,这些建议也可以指导企业组织部署本地或混合本地云扩展.理想情况下,服务器供应商可以通过一些或所有从小型到大型场景的部署工作来指导企业用户。换句话说,这些服务器供应商充当企业客户小型项目计划的顾问,以及他们更大的AI实施计划的下一阶段。2.实施更大的人工智能项目计划实施更大人工智能项目计划的企业将受益于外部支持。开发旨在为组织带来关键业务创新的综合人工智能解决方案的时间、成本和复杂性可能不适合普通企业,但拥有合理充足资源的大型企业组织除外。反复试验。第三方人工智能解决方案提供商可以像增值经销商或系统集成商一样帮助企业客户快速实施解决方案,但他们的灵活性会差很多,也不适合独特的业务需求。非常大的项目计划可以从咨询合作伙伴中受益。企业客户咨询合作伙伴的成本通常很高,并且可能会对这些合作伙伴产生长期依赖,初始部署时间通常很长。另一方面,最终的解决方案将完全根据企业组织的需求量身定制,如果执行得当,可以实现与数据中心的完美融合。对于大型项目,企业客户与具有AI专业知识和涵盖整个硬件/软件堆栈的一系列AI产品的服务器供应商合作也有明显的优势。服务器供应商的咨询费用通常比第三方咨询合作伙伴低,并且比其他解决方案提供商更了解如何优化和扩展自己的硬件。但一定要确保供应商有能力扩展AI应用程序基础设施和深度学习,因为扩展加速计算节点并不像使用CPU扩展计算节点那么简单。我们建议企业的业务部门、开发团队和基础设施团队密切参与这一过程,以确保其人工智能解决方案尽可能定制化,并通过培训培养技能。确保这个企业项目不会以只有服务器供应商或解决方案提供商理解的“黑盒”解决方案结束,不能很好地扩展或与数据中心集成,并且会影响性??能或带来限制当数据量开始增加时。换句话说,这些方法都没有使企业基础架构团队的任务变得更容易。AI服务器供应商、解决方案提供商和顾问将提出硬件建议,并根据与内部开发相同的参数对它们进行批判性评估,包括:加速性能、I/O、可管理性和可扩展性。请注意,上述几个场景可以在方法和部署方面进行组合。例如,本地解决方案可以与云中的SaaS解决方案相结合以实现混合解决方案,或者本地解决方案可以遵循VAR经销商更大计划的实施。最后,IDC发现大多数组织并未明确估算其AI项目计划的基础设施或软件成本。组织需要为人工智能项目制定指标,包括软件、基础设施和劳动力成本的目标。他们还应该计算投资回报潜力(在提高生产率、降低成本或增加收入等方面),并确保他们在项目开始时收集有关这些指标的数据。3.选择内部部署还是云服务?对于一些更大的AI项目计划,可能会有SaaS的解决方案。但与任何基于云的软件解决方案一样,可定制性将受到限制,可扩展性将取决于提供商的基础设施,性能也是如此。此外,当数据量或事务数量快速增长时,成本可能变得不利。对于关键业务数据、敏感数据或需要符合法规要求的数据,需要评估SaaS解决方案的安全性。IDC发现,部署AI应用程序加速基础设施的公司中有65%在本地部署了这些解决方案:22%选择仅在本地;43%的人选择了内部部署和云部署的混合模式。大多数企业表示,到目前为止,他们发现云计算体验令人满意,并将把AI工作负载转移到云服务上。但是,这种迁移不会影响未来24个月内所有可能部署的认知负荷的总体分布;换句话说,本地部署的比例将保持不变。某些AI用例不适合本地或云部署(尽管有一些例外)。由于数据安全问题,某些人工智能用例,例如医疗诊断和治疗,往往比云服务更受欢迎。然而,全渠道运营的商品化在云中更为普遍。也就是说,内部部署、云,当然还有混合策略都可以发挥明确的作用。后者可能是最有益的部署方法。4.加速器在本文中,我们多次提到加速器是克服AI系统基础设施性能瓶颈限制的重要手段。对于使用深度学习算法的人工智能系统来说尤其如此,这些算法需要大量的计算能力来训练。在某些情况下,使用加速器训练深度学习算法可以将迭代时间从几天缩短到几小时。根据IDC的定义,加速计算是通过将部分处理卸载到相邻的硅子系统(例如图形处理单元和现场可编程门阵列(FPGA))来加速应用程序和工作负载的能力。随着企业寻求解决方案来克服CPU在处理AI应用程序等工作负载方面的局限性,加速计算在企业用户中获得了进一步的吸引力。GPU对企业特别有吸引力,因为它们是现成的,并且使用可以轻松集成到应用程序中的标准库。然而,其他提供更高性能功耗比的技术,例如FPGA、多核处理器和专用集成电路(ASIC),也越来越受欢迎:GPU基于神经网络层执行向量和矩阵计算。GPU以并行方式实现,大大提高了训练速度并提高了能效。多核微处理器针对并行化或矢量化进行了优化,无需使用外部加速器。多核微处理器比典型的多核CPU具有更多的内核,并且是旨在最大化处理器、高速缓存和内存之间的数据传输速率的体系结构的一部分。它还执行CPU的传统功能。协处理器是用于加速并行工作负载的PCIe卡。它集成了多核处理器,包含专用缓存、内存和操作系统内核,但需要CPU启动。FPGA是一种集成电路,设计用于在制造后由客户使用硬件描述或高级语言进行配置。FPGA由一系列可编程逻辑块、互连和I/O块组成。它们也可以重新配置。ASIC是专用集成电路,制造后无法重新配置。互连是GPU、FPGA或ASIC与CPU之间的数据连接。PCIe互连的最大单向带宽约为16GBps,而NVIDIA的NVLink2.0的最大单向带宽为150GBps。大多数小型企业选择从服务器供应商处购买加速器作为其服务器的一部分。这是一种方便的方法,因为大多数主要服务器供应商都有加速服务器产品。较大的公司也选择VAR经销商或系统集成商或直接从加速器供应商处购买。这种方法为他们提供了更大的灵活性,因为增值经销商和系统集成商将能够提供更多定制的解决方案,而直接从供应商处采购可以在安装加速器方面提供更大的灵活性。购买加速器作为服务器的一部分时会有一定的溢价。迄今为止,几乎没有基准可以确定加速器作为给定服务器的一部分可以提供多少额外性能,但据IDC称,购买此类系统的公司发现,平均而言,对于给定的整体性能提升,一定溢价是可以接受的(见下表3)。加速是有效的,但它并不总是解决企业数据中心服务器基础设施瓶颈限制的最终解决方案。在很大程度上取决于服务器的核心性能、企业选择的加速类型、互连类型以及软件和数据等各种其他因素。因此,企业客户不仅需要考虑使用哪些加速器,总共有多少台服务器,还需要考虑企业安装了什么样的服务器,包括每个核心的性能和I/O带宽。选择一个平衡的系统至关重要,尤其是对于处于尝试各种AI模型的实验阶段的企业客户而言,因为每个模型都以不同的方式对系统施加压力。表3.给定性能提升的可接受溢价范围资料来源:《认知服务器基础架构调查》2017年6月,IDC
