全国算力一体化建设步入“深水区”,服务器智能水平成关键要素丨算力网风云
编者按
在数字经济潮涌与大模型井喷的时代,算力正如水、电一般,逐日成为现代社会赖以生存的稀缺资源。可以说,谁拥有了算力的主导权,谁就捏住了面向人工智能的头等船票。
这样的时代巨浪下,我国的算力也已步入高速发展新阶段。在此过程中,构建全国一体化算力网,更是应对新一轮科技革命和产业变革的重要举措。而在进行全国“算力网”的布局中,存在不同的市场主体角色,包括阿里、华为、电信运营商乃至其他算力服务商,都有自己的主张。
就此,21世纪经济报道推出“算力网风云”系列报道,围绕中国算力一体化体系建设现状、难点与堵点、产业链机会等进行全方位解读。在对国内算力网现状进行5篇稿件解读后,接下来的系列稿件将重点关注算力上中下游产业链企业如何参与一体化算力网建设,以及随着全国一体化算力网建设铺开,相关产业链未来的发展空间、投资机会。
算力产业链系列稿的第三篇、亦即专题第八篇稿件重点关注服务器产业链。在全国算力一体化建设的背景下,算力服务器正在扮演着至关重要的角色。传统算力服务器如何更好地迎合当下大模型的海量需求,仍是一个值得产业界思考的命题。
在全国算力一体化建设的背景下,算力服务器正在扮演着至关重要的角色。
一方面,作为提供计算资源的核心设备,算力服务器是实现全国算力一体化的基础。通过集中或分布式部署,算力服务器为各种应用和服务提供必要的计算能力。另一方面,在全国算力一体化的体系中,算力服务器可以作为算力调度的中心节点,根据需求动态分配和调整计算资源,以满足不同地区和行业的计算需求。
与此同时,在AI训练需求快速上升的背景下,服务器市场规模也在快速扩张。IDC预计,2023年中国人工智能服务器市场规模将达到91亿美元,同比增长82.5%;2027年将达到134亿美元,年均复合增长率为21.8%。
但在全国一体化算力网建设规划下,传统算力服务器也面临着新的升级需求。
神州数码信创业务集团计算产品线总经理吴艳伟在接受21世纪经济报道记者采访时表示,算力需求的波动性算力需求会呈现峰值和低谷,需要数据中心能够灵活应对这种需求波动。例如,在特定事件(如春节)期间,某些地区的算力需求会急剧上升。而在这一背景下,就对数据中心自动化和智能化运维水平提出了极高的要求。
在他看来,未来为了应对算力需求的波动,数据中心需要自动化和智能化的运维工具,以实现算力的快速调度和优化,同时保证安全性和实现预测性维护。
一体化算力网建设
2023年12月,国家发展改革委、国家数据局会同有关部门联合印发《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》(简称“实施意见”)。
“文件印发以来,我们统筹优化算力资源配置。加快建设全国一体化算力网,推动通用算力、智能算力、超级算力等多源异构算力的协同发展,促进各类新增算力向国家枢纽节点集聚。在构建跨域算力调度体系方面,国家数据局正在推动建立八大枢纽节点和十大数据中心集群算力发展情况一本账,以十大集群为核心,推动算力资源混合部署和统一调度。”国家发展改革委党组成员、国家数据局局长刘烈宏在近期举办的新闻发布会上总结道。
但与此同时,刘烈宏也指出,在算力资源分布等方面仍有多种问题需要解决。其中关键的难题在于“算力网络”的编织工作仍未完成。
“目前我国在跨区域、多层次算力高速直连网络尚未完全建立,大规模网络流量资费较高,一定程度上阻碍了西部有效承接东部算力需求。算力与电力系统协同发展水平亟待加强。数据中心能效管理、绿色评价机制设计等方面有待优化提升,源网荷储新型电力系统尚未得到很好应用。数据中心集群安全防护水平有待进一步提升。统一集约化的数据中心安全防范体系尚未完全建立,一体化安全保障服务能力仍需加强。”刘烈宏说道。
事实上,围绕上述问题政策也在发力布局。日前,为进一步推动算力服务器市场结构的新旧更替,为液冷、整机柜等新型技术产品提供更大的发展空间。工信部、国家发展改革委、财政部等六部门联合发布《工业能效提升行动计划》,其中指出,东数西算”工程中,要求内蒙古、贵州、甘肃、宁夏4处枢纽设立的数据中心集群PUE控制在1.2以内;京津冀、长三角、粤港澳大湾区、成渝枢纽设立的数据中心集群PUE控制在1.25以内。
而在实际执行中,各地采取了更为严格的能效标准。比如北京规定新建和改扩建智算中心PUE值一般不超过1.25,年能耗超过3万吨标煤的大规模先进智算中心PUE值一般不超过1.15。更为严格的PUE约束,将让数据中心运营商对于液冷、整机柜等高能效的技术方案的倾向性进一步增强。浪潮信息在液冷领域已经处于领先优势。根据IDC数据,中国液冷服务器市场在2023年销售额同比增长48.0%,预计2023-2028年市场年复合增长率将达到45.8%。2023年,浪潮信息市场份额 36.8%,排名第一。
算力服务器异构单元挑战
从技术角度来看,AI大模型对于算力服务器提出了无穷尽的需求。
“如果说千亿参数是大模型智能涌现的门槛,那么万卡则是AI系统设计的起点,对目前计算机系统提出了全面的挑战。”
首当其冲的挑战就是计算资源不足,浪潮信息相关负责人表示,AI系统的性能主要源于GPU等加速器,AI需要计算机系统具有强大的异构扩展能力,但是传统的计算机体系结构限制了异构加速器的扩展性。
“加速计算模块一直被作为CPU的配属单元,依靠PCI-e总线接入系统,只支持有限数量的异构单元,并且同CPU的通信带宽也十分有限,因而CXL、NVlink等下一代总线技术发展迅速。”
而在大模型的互联方面,该负责人表示,当前AI训练集群已经从千卡、增长到万卡、十万卡,节点间的并行产生大量的通信需求。
相关数据显示,当前张量并行频率有28.4次/S,需要带宽194GB/S,网络的延迟和带宽不足使得计算单元经常因为等待数据而空闲,严重限制了集群效率。例如GPT-4的集群有2.5万块GPU,效率32%-36%,非常低,但在当前技术条件下几乎触顶。
在算法效率方面,由于AI训练是一个超级复杂的计算系统,算法结构与硬件结构匹配不合理、并行化处理不科学等都会导致整个计算平台的利用率偏低。
除此之外,智能算力需求的扩大也导致算力服务器面临巨大能效压力,当前单颗AI芯片的功耗已经突破2700W,单机柜AI服务器的功耗已经突破100KW,这样的热功率密度几乎超越了风冷的物理极限。而且国家“双碳”战略背景下,AI的能效挑战越来越大,不论技术、经济还是政策层面看,数据中心的液冷化是大势所趋。
巨大业务机遇
在上述问题的驱动下,算力服务器也在呈现出一些新的发展趋势。
首先,底层的体系结构创新迎来黄金时代。传统以CPU为中心的体系结构明显不能适应人工智能的计算需求,以数据为中心,基于CXL、NVlink等下一代总线技术的新一代体系结构发展迅速。
与此同时,系统创新越来越重要。单颗芯片性能提升受限,而AI对于大算力的追求永无止境。因此,AI计算系统只能集成越来越多的芯片来获得大算力,AI计算集群的设计起点已经达到了万卡级别。大规模计算系统中,互连、算法等关系整体效率的工作越来越重要,芯片的重要性反而在不断下降。
“智算节点内的P2P高速互连距离是非常有限的,最多能做到1-2个机柜之间的高速互连,所以AI计算必然走向高密度。同时,GPU的功耗越来越高,比如英伟达最新的GB200超级芯片(集成了一颗CPU、2颗GPU)最大功耗达到了2700W,高密度部署与高功耗芯片叠加,一方面使得智算服务器从传统机架向整机柜升级,从单台服务器交付向整机柜一体化交付升级,另一方面使得单机柜功率迅速提升从当前的12-16千瓦走到120千瓦,散热将逐渐走向液冷。AI计算、液冷和整机柜的结合将成为未来趋势。”上述浪潮负责人说道。
此外需要指出的是,在算力一体化布局下,服务器产业链公司也随之迎来了相关发展机遇。
吴艳伟表示,随着技术的发展,数据中心的运维正在更加智能,包括预测性维护和故障自愈能力,以提高运营效率和可靠性。
除此之外,一体化算力网的建设也进一步颠覆了算力业务的传统商业模式。
吴艳伟告诉21世纪经济报道记者,当前算力的传统业务模式如单纯销售服务器硬件等,正在向提供算力租赁等新服务模式转变。这种模式允许不具备建设大型数据中心能力的机构,如高校、研究所和创新企业,通过租用算力来满足其高端计算需求。“未来,算力租赁有望作为一种新的商业模式,允许在算力需求高峰期将算力调度到需求高的地区或行业,从而提高资源利用效率。”吴艳伟说道。