智能计算需求旺盛,数据中心服务商竞速迭代丨算力网风云⑭
AI大模型加速迭代和探路应用背景下,智能计算需求正迅速增长。高密度、高算力、高效能正成为智算中心的发展趋势。
中国移动通信研究院发布的《面向超万卡集群的新型智算技术白皮书》中提到,随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,超万卡集群成为本轮大模型基建军备竞赛的标配。
当然与此同时,IDC行业本身正经历上一轮大规模建设的周期尾声,行业出现阶段性供过于求行情。新的市场趋势则对行业提出从传统数据中心向新型智算中心升级需求,由此考验着数据中心服务商的综合能力。
参与者正积极竞速。根据中国信通院测算,2022年数据中心业务市场收入约达1900亿元,近三年年均复合增长率为27.2%。第三方数据中心服务商市场份额保持高速增长,首次超越基础电信运营商,占据市场主导地位。
但在当前阶段,AI大模型驱动的更高智算需求背后,不仅是依靠单一产业角色的探路发展,还需要完整产业链携手推进。
第三方IDC跃起
全国如火如荼推进数据中心建设过程中,更多元化的角色参与进来,甚至对既有行业格局带来变数。
中国信通院统计显示,基础电信运营商和第三方数据中心服务商是我国数据中心市场的重要参与者,在2022年后者开始占据主导地位。
其中,基础电信运营商掌握优质资源,注重前瞻性布局,促进东西部比例平衡。第三方IDC服务商的参与角色也越来越丰富,除了大型服务商在积极发展,小型服务商业不断涌现,行业市场迎来加速整合期。
总体来看,一方面头部第三方数据中心企业具有更强的资金实力、资源储备和品牌影响力;另一方面市场整合会促进行业的集中度提高,进一步增强他们在资金和资源方面的优势。
秦淮数据集团CTO张炳华对21世纪经济报道记者表示,秦淮数据业务发展主要得益于数字经济与人工智能迅猛发展所催生的强劲需求,以及公司在超大规模数据中心建设模式的核心优势。
他分析道,“我们与其他数据中心服务商提供的‘超市/便利店模式’,或称‘零售模式’有所不同,零售模式以提供通用型的产品方案为主;秦淮数据则主要以头部客户的刚性需求为主,聚焦为客户提供大规模或超大规模定制化解决方案。除了能迅速响应客户需求外,还需要根据行业发展趋势提前进行资源布局。”
因此,秦淮数据集团会密切关注行业技术动态,比如英伟达的GPU芯片发展和技术要求,前瞻性地开展100kW以上高密度机柜的供电、冷却等方案研究,针对AI时代大模型业务场景开展系统架构全栈规划。
他还提到,“在当前算力服务市场比较‘内卷’、同质化竞争严重、部分区域资源趋于饱和的背景下,‘以需定供’可以有效减少无序发展带来的资源浪费,‘以供创需’则要求数据中心企业不断提升自身的技术、建设和运营实力,从而吸引更多需求,提升上架率。秦淮数据集团2023年已投运数据中心上架率达到87%,远高于行业平均水平。”
润泽科技副董事长、总经理李笠在近期业绩交流会中在谈及对2024年业务展望中分析道,AIDC的增速主要受终端用户的需求、融资能力、高性能设备供应情况等因素影响。随着Sora为代表的文生视频大模型进一步点爆AI行业、应用逐渐落地,智算中心需求进一步增长。“目前长三角和京津冀市场对AIDC需求很旺盛,公司将加速推动现有用户的订单落地,积极开拓新用户群体,尽快交付能承载10万卡集群的智算中心。”
但他同时指出,目前国内最大的卡集群是万卡,美国先进公司早在去年底就达到10万卡集群,这是整个中国产业链的一场接力赛,每个环节都要接好自己手中的接力棒,为中国AI加一份力。
从趋势来说,Omdia云与数据中心研究的首席分析师Alan Howard对记者分析道,第三方数据中心行业受益于两大市场动态:一是越来越多企业将业务迁移到这些数据中心运行,需求驱动因素持续增加;二是许多云和流媒体等公司更愿意不建立或无法快速建设数据中心。由此Omdia预计未来三到五年内数据中心需求仍将保持高位。
“IDC的上一轮建设周期在2020-2021年间,伴随云计算的高增长,IDC建设也迎来高增长时期。但随着这些年间供给大幅增加,但宏观环境承压背景下,云计算和互联网行业需求增速低于供给,造成阶段性供给过剩。市场上一些碎片化的第三方IDC也在产能出清。”前述IDC分析师对记者分析,这导致行业整体增速有所下滑、出现价格战。
“我们认为基础电信运营商和第三方数据中心服务商并非非此即彼,二者很多时候形成了合作关系。运营商的机架一方面为自建自用,另一方面则是对于优质IDC需求选择与第三方IDC合建。”前述IDC分析师指出,IDC作为一个周期性行业,预计最晚到2025年,行业供需关系将进一步改善。
从通算到智算
伴随AI大模型快速迭代发展,当前市场对算力需求已由传统数据中心向智算中心转变。
张炳华对记者表示,传统通用计算采用的机柜单机功率相对较低,但异构(智能)计算对数据中心规模、单机柜功率密度、以及冷却方式均提出了更高的要求。
具体来说,首先是数据中心集群规模持续扩大,单个集群规模通常需达到30-50兆瓦以上;其次是单机柜功率密度大幅攀升,由每柜几个千瓦提升到几十个千瓦;以英伟达最新发布的Blackwell GB200 GPU异构计算为例,其单机柜功耗高达120千瓦,相当于CPU通用计算单机柜功耗的10-20倍;再次,随着单机柜功率密度提升,原来的风冷方案已经不能满足高功率密度冷却要求,冷却方案也逐渐从风冷转向液体冷却。
“在大模型计算过程中,集群规模越大、算力越强、计算时间越短、效果就越好。因此,我们对算力基础设施的设计规划、选址、运营都要做出相应的调整和优化。”他补充道,在此过程中对网络带宽、电力容量、供水能力等配套设施也需要同步升级。
另外,数据中心从通用计算跨越到异构(智能)计算,不仅是技术层面的改变,更类似于APP平台从iOS迁移到安卓,代表着整个生态系统都会全部重构。然而,在智算生态建设初期,各个方面不够成熟的情况下,GPU整体运行速度和性能可能暂时无法得到充分发挥。
Omdia云与数据中心研究首席分析师王珅还对21世纪经济报道记者分析,在转型升级过程中,技术上主要面临电力容量、冷却系统容量、供电和制冷架构效率不高等挑战;以及算力硬件供应不足和多种架构算力硬件融合统一的挑战。商业层面则主要是智算中心目前上架率不高的问题,这可能会影响商业模式闭环。
一名IDC分析师对21世纪经济报道记者指出,从传统IDC转向AIDC过程中门槛在提高。“简单来说,传统IDC服务商类似房地产公司提供毛坯房,这是一套已经流程化的工作,完成需求调研-建设-上架-运维等规范化流程即可。但AIDC需要更多能力加持,类似提供拎包入住的公寓式服务,这要兼顾PUE(数据中心能源效率的指标)和算力集群利用率等平衡,大幅提高了运营门槛。”
他进一步表示,智算中心建设需求将涉及更为复杂的技术和运维等挑战,“核心原因在于当前AI生态还不健全,但客户层面要求整体运营能力,导致IDC服务商可能面临很多试错成本。当然在此过程中也积累了更多能力,更好帮助他们从传统IDC服务商向算力运营商角色转型。算力租赁就是一个重要方向。”
IDC产业本身随着大模型商用进程可能也将面临变化。
张炳华对21世纪经济报道记者分析,目前大型AI模型尚未迎来大规模商业化阶段,因此现阶段AI训练的需求高于AI推理需求。预计约在2-3年后,AI推理需求将会显著增长。
他指出,未来商业模式和应用场景都可能发生变化,特别是在接近用户端,推理的需求将会大幅增长,因此,要根据业务场景、客户需求和政策因素等条件对数据中心进行规划和建设。
“未来的运维工作也将面临更多挑战。传统的风冷数据中心运维相对简单,但随着智能计算规模的扩大,数据中心的机柜功率密度、冷却方式和供电方案等方面都在不断演进。”他补充道。
例如,一些智算中心采用液体冷却机柜,包含冷板式液冷和浸没式液冷;其中,浸没式液冷会导致液体和服务器、网络设备之间产生耦合,改变数据中心的整个产业生态。这既增加了产品设计、工程建设、验收交付和运营维护的复杂性,也需要解决ICT设备抗腐蚀、液冷系统材料选择、施工工艺等新技术问题。
因此,如何保障不同冷却方式的数据中心更加安全稳定运行,如何根据不同的业务场景制定标准的运维操作流程、如何面对可能的故障场景制定紧急操作流程、如何快速响应客户变更要求保障SLA也变得更为重要,这也对服务商的综合实力提出了更高要求。
多方位竞速
新的竞争趋势正在扩围,信通院指出,为响应国家政策号召,第三方数据中心服务商正积极转变发展策略,调整业务布局,深耕西部地区算力服务市场的同时,更积极拓展东南亚及“一带一路”共建国家等海外市场。
然而,跨区域部署乃至跨国部署的环境挑战重重,特别是在当前全球算力资源供给日益紧张的背景下。面对这些挑战,企业仍需谨慎部署、灵活应对。
张炳华对记者表示,秦淮数据集团在数据中心业务选址中形成了“能源流”、“数据流”和“业务流”三流合一的原则,已分别在张家口和庆阳等“东数西算”枢纽节点落地部署。
从算力跨区域布局角度,面对目前还较难解决的传输过程中网络时延问题,他提出,新型AI的计算过程主要分为模型训练(离线计算)和在线推理两种类型。由于西部地区土地广袤且电价低廉,可考虑将东部产生的热数据输送到西部地区用于大模型的离线计算和训练;与此同时,靠近业务核心的东部区域数据中心则专注于在线推理任务,从而有效规避网络时延带来的数据传输问题。
此外,进一步推动“东数西算”工程需要从多个层面突破,包括但不限于直连网络建设、建立跨区域算力结算与交易机制、加强节点间过渡性桥梁建设、推动“源网荷储”一体化项目建设,以及持续优化算力基础设施服务等。
面对目前芯片短缺和性能问题,张炳华指出,可以通过扩大集群布局规模来改善,包括增加GPU卡数量和网络优化等手段,尽管这种方式对研发尖端大模型助力有限,但对开发垂域模型却能发挥积极作用。
普洛斯数据中心相关负责人则对记者表示,实现“东数西算”的根基是优秀的算力平台,算力平台的基石是数据中心运管平台,算力平台的底层逻辑是对算力资源的分配、调度、削峰填谷,在能效、业务、用户、性能等多维度中寻优。数据中心管理平台就是为算力平台提供能效、基础设施资源的最优管理。在算力平台调度过程中,需要追踪基础设施的容量变化,通过建立专家、AI等技术手段动态调整基础设施的运行策略,从而支撑算力平台的快速调度。
不止于国内市场,第三方数据中心服务商也在积极出海,东南亚、“一带一路”共建国家均是投资热门地区。例如万国数据在东南亚、韩国等地区规划部署了大型数据中心业务;世纪互联2022年积极参与新加坡数据中心容量申请等。
在海外市场,秦淮数据集团已在马来西亚、印度、泰国有所布局,在印度尼西亚也有资源储备。据悉,公司已成功应用并推广大规模全预制数据中心技术,通过海外建筑钢结构建造+国内机电工厂预制的建造模式,全面实现了海外项目快速、高效、高质全预制交付模式。以马来西亚MY06项目四期为例,仅用时8个月就实现了从打桩、建设、测试到圆满交付业务。
张炳华告诉21世纪经济报道记者,秦淮数据集团正积极探索海外市场的新发展模式,如进一步探索能力输出,包括产品研发能力、方案设计能力、工程交付能力及运营保障能力等,以期在全球范围内实现更大的拓展和影响。
当然,挑战也在出现,不少国家都对绿色、能耗等提出了更多要求。王珅对记者表示,“肯定会面临更大的各方面压力,当然是迟早要面对的。那么不如尽早经历、学习和应对,同时也帮助国内数据中心企业进步。策略上可以首先以中资企业或‘一带一路’共建国家投资等为主,逐渐真正地进入第三方的主要竞争场地中。”