阿里商城

液冷温控系统在高性能智算/超算中心不可或缺

日期:2024年02月09日 | 浏览次数:19414

后摩尔定律时代下 CPU/GPU 芯片的功耗随着算力能力的提高而大幅提升,Intel、AMD 主流系列处理器功耗已达到 350W/400W,NVIDIA H100 计算卡最大功耗可至 700W,已经突破传统风冷系统散热能力范畴。同时,随着大模型 等系列 AIGC 产品的商业化落地,对于 AI 服务器的需求将会快速提升,AI 服务器中大量使用高功率 CPU、GPU 芯 片,带动整台 AI 服务器功耗走高,用于训练 ChatGPT 的 NVIDIA A100 服务器的最大功耗已达 6.5kW。 受制于建设面积等客观因素,增加单机柜功率密度成为调和快速增长的算力需求与有限的数据中心承载力之间的有效 方案。AI 集群算力密度将达到 20-50kW/柜,2022 年国内全行业数据中心单机柜平均功率密度中 8-12kW 占比 15%, 同比增长 7pct,12-20kW 占比 10%,同比增长 7pct,高功率数据中心机柜占比迅速增加。自然风冷的数据中心单机 柜密度一般只支持 8-10kW,冷热风道隔离的微模块加水冷空调水平制冷在机柜功率超过 15kW 后性价比大幅下降, 液冷散热成为解决算力爆发增长下高功率密度机柜温控的有效解决方案。

1、后摩尔定律时代芯片算力与功耗同步大幅度提升

后摩尔定律时代芯片算力与功耗同步大幅度提升,风冷散热技术面临严峻挑战。(1)CPU 方面,随着内核数量的增 加,处理器性能不断提高,带动处理器功率不断增加,特殊场景下(如高性能云计算)处理器将使用超频以提高运算 性能,进一步提升功耗。Intel 2023Q1 发布的第四代至强处理器多款子产品热设计功耗达 350W、AMD EPYC 9004 系列处理器,单颗多达 96 个核心,最大功率可达 400W。(2)GPU 方面,2022 年英伟达于 GTC 大会上发布 H100 计算卡,其具有 SXM、PCIe 5.0 两种样式,最高功耗可达 700W,已超出传统风冷系统散热的能力范畴,于是英伟 达直接在机架中整合液冷散热系统,取代传统的系统风冷散热。

算力升级大趋势下 AI 服务器渗透率快速提升,A100 服务器最大功耗可达 6.5kW。AI 服务器由于涉及到多个大 数据集并部署可伸缩的神经网络算法,一般采用异构形式架构,根据实际需求采用 CPU+GPU、CPU+TPU、CPU+ 其它的加速卡的组合方式。根据 IDC 数据,2022 年全球 AI 服务器市场规模达 202 亿美元,同比增长 29.8%, 占服务器市场规模的比例为 16.4%,同比提升 1.2pct,预计随着 AI 大模型推理与训练需求的持续增长,AI 服务 器渗透率将会持续提升。相比于传统服务器,AI 服务器的 CPU/GPU 功耗也随之走高,如 H3C 面对通用计算、 AI 应用的 UniServer R4950 G6、UniServer R5350 G6 服务器,其采用 AMD EPYC 9004 系列处理器,最大功 率将达到 400W。对于整机而言,以训练 ChatGPT 的 NVIDIA DGX A100 640GB 为例,其采用双路 AMD Rome 7742 与 8 颗 NVIDIA A100 80GB Tensor Core GPU,最大整体功耗达到 6.5kW。

2、AI 拉动算力密度从 8KW/柜提升到 50KW/柜

数据中心单机柜平均功率密度逐年提升,AI 集群算力密度普遍达到 50kW/柜。算力的爆发式增长需要海量的服务器 进行支撑,但受制于数据中心建设面积等客观因素,增加单机柜功率密度成为调和快速增长的算力需求与有限的数据 中心承载力之间的有效方案。根据赛迪顾问《中国液冷数据中心发展白皮书(2020)》数据,预计 2025 年全球数据 中心单机柜平均功率有望突破 25kW,其中,根据 ODCC《冷板式液冷服务器可靠性白皮书》数据,AI 集群算力密度 有望达到 20-50kW/柜。根据 CDCC 统计数据,2021 年国内全行业数据中心单机柜平均功率密度中 8-12kW 占比 8%、 12-20kW 占比 3%;2022 年国内全行业数据中心单机柜平均功率密度中 8-12kW 占比 15%,同比增长 7pct,12-20kW 占比 10%,同比增长 7pct,高功率数据中心机柜占比迅速增加。自然风冷的数据中心单机柜密度一般只支持 8-10kW, 冷热风道隔离的微模块加水冷空调水平制冷在机柜功率超过 15kW 后性价比大幅下降。未来,随着数据中心设备发热 量持续增大,散热冷却系统移热速率亟需与产热速率相匹配,否则机柜温度不断升高将导致算力下降并损害设备,此 时,液冷散热方案在散热能力与经济性上的优势逐步凸显。

大型第三方数据中心企业客户订单中已明确出现液冷机柜需求。如超大规模数据中心整体解决方案提供商润泽科 技表示“部分外地所开发的客户在进行数字化转型业务时,需要公司提供液冷机柜,要求为 20kW 或 30kW”、 “冷板式液冷为公司未来的一个主流技术方向,客户对此接受度较好,已经开始准备批量交付液冷机房”。未来, 随着企业数字化改造的深入推进、算力需求的不断提升,需求端对于 20kW 以上的高功率液冷机柜的接纳度也将 持续提高。

来源:招商证券


上一篇:一图读懂:2024年加快推动制造业绿色化发展的指导意见
下一篇:时代博川阐述数据中心液冷革命:挑战与突破的激情碰撞