“传统架构适用了几十年,但在AI时代,这样的架构已经不够用了。”近日,在Arm Tech Symposia年度技术大会北京场,Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad作出了这样的论断。当前,在AI的带动下,云计算基础设施正在经历一波变革风潮。下面的图1呈现的是一种传统的服务器架构。在过去几十年的时间里,几乎所有的服务器都沿用着这样的架构:以通用的现成CPU为中心,两端分别连接内存和多个加速器。“而在AI时代,这样的架构已经不够用了。”Awad认为,“采用这样的架构,CPU 以及加速器之间的接口直接限制了产品最终的性能水平,因为所有的加速器都必须要通过一个 CPU 访问额外的内存,这样就无法达到内存的一致性,也就意味着加速器的性能无法被充分利用,也就无法很好地支持生成式 AI 时代的需求。”
传统云计算服务器架构与新型架构对比(图片来源:Arm)为了应对愈发复杂多样的市场需求,基础设施专用化正成为行业趋势。越来越多的云计算厂商开始定制甚至是自研芯片,其主要目的就是为自己的服务器集群提供最适合的基础设施,以达到性能表现最优化。从阿里平头哥推出倚天710,百度昆仑芯推出K100、K200、R200系列AI加速卡,到谷歌云推出新型AI芯片Cloud TPU v5e,以及近期云计算大厂微软也发布了AI加速芯片Maia100和CPU芯片Azure Cobalt 100,正式加入造芯行列。据了解,上述芯片产品目前主要用于服务本公司或母公司的云计算业务。云计算厂商正在通过实际行动搭建更适应自身业务需求的服务器集群。通信基础设施专用化的需求,不仅存在于云计算供应商,5G云网基础设施供应商也感受到了来自客户的需求。联想集团副总裁、云网融合事业部总经理关洪峰介绍了当前5G专网的建设情况,来自教育、制造、交通、零售、环保、政务等不同领域的客户对于5G专网的要求也不尽相同。关洪峰表示,来自不同垂直行业的客户,都对个性化服务有着强烈的诉求,希望使用更定制化的基础设施建设方案,降低5G专网的建设成本。
关洪峰介绍行业云网融合发展情况
为了应对AI给云计算基础设施带来的巨大计算压力,需要从架构底层对系统进行创新。以一种现代化系统架构为例,由原先单内存、单CPU连接多个加速卡的结构调整为内存、定制CPU与加速卡一一对应的结构。这样的话,加速卡与CPU、内存之间便能够实现高效链接,同时还能实现整个设备的内存一致性。这条思路之下更重要的是定制化能力,也就是上图中的定制CPU和加速卡,是不是能够实现灵活配置。这也是云计算厂商面临的共同问题:产品需要突出什么功能,就要实现什么功能,而且要有足够的灵活性。Arm为云计算厂商的性能优化与功能定制化提供了助力:一方面提供具有强大功能的内核,另一方面支持用户在此基础上做个性化改造,从而帮助客户快速实现产品上市。例如NVIDIA GH200 Grace Hopper超级芯片,采用的就是Arm架构,使用了72颗Arm Neoverse核心,再与NVIDIA自有的GPU组合,从而实现了芯片性能的进一步优化,其AI性能较基于x86架构的系统可提升10倍。近日,AWS发布的Graviton4也是基于Arm Neoverse平台的处理器设计。与Graviton3相比,该处理器处理速度提高了30%,核心数量增加了50%,内存带宽增加了75%。Mohamed Awad在Arm Tech Symposia年度技术大会北京场进行主题演讲自研芯片能够更大程度地满足自身业务需求。对于像AWS、阿里云这样的云计算服务商而言,自己就是应用端,因此该类型企业会根据自己的用例和工作负载,围绕服务器、机架甚至是数据中心进行个性化定制。但并不是每一家公司都具备AWS这样成熟的技术实力来实现芯片研发的高程度自主化。为此,Arm为其合作伙伴提供了又一“法宝”——Arm Neoverse 计算子系统 (CSS),其一方面可以发挥Neoverse平台每瓦性能与效率优势,另一方面可以帮助芯片企业降低芯片压力、提升上市效率。Awad在接受《中国电子报》记者采访表示:“通过使用我们的Neoverse CSS,有一位合作伙伴的项目从概念到流片仅耗时13个月。”借助Neoverse CSS,ASIC设计公司可以快速启动设计项目,并随时将其设计方案提供给所需客户;IP供应商可以针对Neoverse CSS进行预先集成、预先验证和预先优化高级IP;商业固件解决方案企业可在芯片流片之前就开始开发。上个月微软最新发布的Azure Cobalt 100也是基于Neoverse CSS打造。除此之外,Arm还在优化云计算性价比上进行了大量努力。记者在活动现场的展位上了解到,在相同网络、相同内存配比、同样vCPU数量、同样磁盘和应用负载的情况下,基于Arm平台的实例相较于x86存在至少20%的性能优势,此外还能实现至少20%的费用节省。而在一些特定的计算密集型场景,例如在做H265视频编码时,其性能相当于x86架构云实例的两倍。在Arm活动现场,令记者印象深刻的有两个数字:13和80。13指的是,通过使用Neoverse CSS,芯片设计从概念到流片仅耗时13个月。而80指的是,通过使用Neoverse CSS,企业节省了相当于80位工程师工作一年的开发时间。而当记者追问,为什么CSS能够帮助企业缩短芯片设计周期时,Arm 中国区业务全球副总裁邹挺表示:“完整的生态是关键,Arm的生态系统可以为芯片开发的各个阶段保驾护航。”Arm 中国区业务全球副总裁邹挺在Arm Tech Symposia年度技术大会北京场发言在设计工具方面,有楷登电子(Cadence)、新思科技(Synopsys)等企业提供经过验证的EDA工具;在IP设计方面,有Rambus提供预集成的IP,已经集成内存、安全和外设等功能;在芯片设计方面,有ADTechnology、Alphawave Semi、博通、凯捷、智原科技等公司可提供设计服务以及关于Neoverse CSS、其他Arm IP和方法等方面的专业知识;在芯片代工方面,有来自英特尔IFS(代工服务)和台积电等代工厂合作伙伴的技术,可为芯片设计公司提供领先的工艺节点及先进封装技术。用邹挺的话说,选择Arm,相当于选择了一条已经经过验证的产业链条。从EDA工具到芯片设计再到代工流片的全环节,Arm及其既有的合作伙伴已经实现了全线跑通和验证,新的客户在常规环节“抄作业”就可以了,从而能够将主要精力放在产品创新和差异化竞争力的打造上。在Arm年度技术大会现场,台积电相关负责人表示:“我们作为制造环节,与包括Arm在内的设计生态系统伙伴保持长期的紧密合作,为客户提供经验证的设计解决方案。台积电与Arm数年的发展已经积累了大量的合作经验,在新技术开发的同时,实现客户与合作伙伴端的同步开发及优化,加快产品设计开发及上市。”而在国内也正有越来越多的企业,看到了Arm既有的生态优势,从而加入到该生态系统中来,成为其中的一部分。例如,国内汽车电子软件企业知从科技,专为汽车芯片等汽车相关产品提供基础软件、工具软件,也极大限度地适配了Arm内核的芯片。这与Arm已经建立起良好生态连接有很大的关系。Arm建立起来的生态系统使合作伙伴更易打造定制芯片,并不断迭代发展,助力技术不断跟进时代潮流和客户需求。Arm及其生态伙伴积极在AMBA CHI C2C、UCIe等诸多计划上开展合作。Arm正在推动将基本接口与系统架构达成业内一致性,以实现多芯粒SoC设计的创新发展。当前半导体业界最热门的技术路线探索也不乏Arm及其合作伙伴的身影。例如,Socionext的多核CPU芯粒,采用Neoverse CSS技术,正基于台积公司2nm工艺节点进行设计开发,为面向服务器CPU、数据中心AI边缘服务器和5G/6G基础设施提供解决方案。在未来,Arm将继续与各方携手合作,确保高性能、高效率的解决方案广泛可用,助力满足AI带来的巨大需求。