数据中心那点事之冷板式液冷
日期:2023年11月03日 | 浏览次数:17829
引言
随着云计算、大数据、人工智能等新一代信息技术快速发展,数据呈现爆炸式增长。数据中心作为推动金融科技快速发展和金融行业数字化转型的关键基础设施和重要保障,其建设规模也在不断扩大,能耗占比也越来越高。与此同时,“双碳”目标的持续推进及国家层面节能监管政策的不断趋紧也给数据中心发展戴上了“紧箍咒”,发改委、工信部、机关事务管理局、能源管理局等相关部门频频联合发文对PUE提出明确限制,全国新建大型、超大型数据中心平均电能利用效率降到1.3以下,“东数西算”工程也强化对八大算力枢纽节点10个数据中心集群的绿色发展要求,将PUE指标控制在1.25以内。此外,计算密集型应用场景激增以及业务上云的发展趋势,导致承载这些应用负载的服务器设备功耗大幅增加,数据中心单位空间产生热量的瓦数正在不断上升,单机架功率密度也越来越高。因此,需要新的散热制冷技术去匹配需求增长所带来的设备功率密度的提升同时满足节能监管带来的政策要求。
在政策拉动以及数据中心节能降耗增效等内外部需求驱动背景下,液冷作为可以支持更高功率密度的先进高效制冷解决方案应运而生,其中冷板式液冷因其技术成熟、散热效率高、适应性强、系统噪音小以及运营TCO成本低等优势,为绿色低碳算力中心发展提供了节能创新管理新思路。
02
冷板式液冷系统技术分析
2.1 冷板式液冷系统制冷原理
冷板式液冷主要通过铜、铝等高导热金属构成的封闭腔体将芯片、CPU/GPU、内存等高热密度元器件的热量间接传递给封闭在循环管道中的冷却液体,然后利用冷却液体将热量带走,其根据工作流体的传递特点将中间热量运输到后端进行冷却,通过一次侧和二次侧的结合实现了冷板式液冷系统的整机液体循环,进而达到为IT设备散热的目标。
图1 冷板式液冷系统架构图
2.2 冷板式液冷系统的优势
(1)材料兼容性好。由于冷却液管路中流动时未与主板和芯片模块进行直接接触,材料兼容性较强。在选择冷却液时,可只考虑冷却液与循环管路以及冷板之间的兼容性问题
(2)适应性强,维护便利。冷板式液冷不改变服务器主板原有的形态,同时可直接与原制冷系统(常规冷冻水系统)兼容适用,在技术、产业以及规模化生产上具有更好的可行性。而且服务器安装维护与常规风冷服务器基本一致。
(3) TCO成本较低,运营PUE可低至1.2以下。对于传统的机架式风冷服务器,资源利用率得到显著提升,同时采用高比热的液体工质,循环耗能少且简化了换热流程,可让有限的能源更多分配给算力,从而降低运营成本增加算力产出。
2.3 冷板式液冷的系统设计
冷板式液冷系统包括一次侧(室外)和二次侧(室内)两部分,一次侧指将二次侧的热量排至室外环境或其他热回收单元的环路,包括室外的干冷器和冷水机组等冷源,二次侧指从服务器带走热量并在一次侧进行散热的环路,包括供液环路和服务器内部流道等,两个部分通过 CDU(冷量分配单元)中的板式换热器发生间壁式换热,工质不做混合。
二次侧解决方案相对固定,通过CDU及后面的系统架构进行配置。一次侧根据使用条件和使用场景主要有以下四种解决方案:
(1)水冷冷水机组+冷却塔(开式)+板换
在高热高湿地区,机房环境要求高,直接采用闭式冷却塔/干冷器无法直接满足供冷要求,需要辅助机械制冷装置,冷源通常采用冷水机组+冷却塔的联合供冷方式。系统具有两种运行模式:
模式一:室外温度较低,冷塔+板换即可满足制冷要求,无需冷机开启。
模式二:冷塔出水水温高于CDU需求,需要冷塔+冷机机械补冷。
图2 冷塔+水冷冷机+板换系统示意图
(2)风冷冷水机组
风冷冷水机组将冷凝器、水泵、压缩机等部件合成整体,且通常配置免费冷源模块(如干冷器)以充分利用室外自然冷源,集成度高,适合系统偏小以及缺水地区。系统同样具有两种运行模式:
模式一:室外温度较低,免费冷源模块即可满足制冷要求,无需冷机开启。
模式二:免费冷源模块无法满足CDU的温度要求,直接使用风冷冷机形式。
图3 风冷冷水机组系统示意图
(3)闭式冷却塔/干冷器对于当地气温全年较低,采用闭式冷却塔/干冷器可满足CDU温度要求,全年无需机械制冷。闭式冷却塔以蒸发散热为主,可输出更低的温度,循环系统水质较好,对于CDU等换热设备友好,缺点耗水量较大;干冷器体积较大,单机制冷量偏小,但容易部署,配置湿膜后还可以部分使用蒸发冷却。
图4 闭式冷却塔系统示意图
(4)开式冷却塔
开式冷却塔与闭式冷却塔制冷模式完全相同,缺点是水路与大气相通,导致水质较差。
图5 开式冷却塔系统示意图
上述方案以液冷侧需求为主要考量因素,实际运行过程中机房仍需配备少量空调以满足服务器中低热密度部件(如硬盘、接口卡等)的散热需求。
03
冷板式液冷关键组件设计因素考量
3.1 冷却工质液体的选择
二次侧冷却回路中常用的冷却工质包括水基冷却工质(纯水液或配方液等)和非水基冷却工质(介电液体、矿物油或冷媒等)。其选择需要在满足冷却性能需求的同时,还应满足二次侧冷却回路中所有浸润材料的相容性和长期可靠性,并同时考虑IT设备及冷却工质本身维护的便利性、使用预期寿命及液体的成本等综合因素。此外,还需要考虑冷却工质液体的热性能参数,如比热/潜热、介电/导热系数、动态粘度、密度、闪点等。
3.2 冷板及其配套部件(供回液歧管、快换插接头等)设计的关键考量
冷板应根据芯片的型号尺寸及IT设备的内部结构进行设计,以获得更好的换热效率,在满足芯片整个使用周期内的壳温要求下,尽可能优化流道设计,减小冷板模块的流阻,并适配CDU循环泵工作点扬程能力。同时,考虑配管位置、方向及液体进出口位置,避免与IT设备的结构产生冲突。
供回液歧管作为分配流入或流出机架内 IT 设备冷却工质的关键部件,其位置的选择需确保满足快换接头、电源接口、网络和其他 I/O 的操作要求,包括 IT 设备运行的电缆和软管的管理,同时必须能够提供符合 IT 设备需求的冷却流量,确保机架内冷却工质流量分布均匀,保障 IT 设备可在线移出或接入液冷系统。
快换插接头应满足发生故障时方便更换,分离后切段液冷的同时冷却工质的无泄漏,具备快速更换、在线可插拔维护性能及自封功能。
3.3 漏液检测与干预
二次侧冷却回路中如 CDU、机架、快换接头和计算节点等存在泄漏的导电冷却工质可能造成设备损坏和数据丢失等风险,因此需部署专用泄漏检测硬件如点探测器、薄膜检测带或泄漏检测线缆,能够检测泄漏和快速定位发生泄漏的位置,同时需要吸附、储存和导流装置,避免漏液与高价值设备接触,争取人工处理响应所需的时间。
自动电气和流体干预可以实现高级别的预防,即在发送泄漏事件的同时对 IT 设备进行数据存储、关机或自动断电,同时冷却液关闭。可更大限度避免大量硬件设施暴露接触到泄漏液体中,从而方便维修,减少损失。
3.4 强大且完善的监控系统
冷板式液冷监控系统需覆盖一/二次侧压力、流量、温度、供回液压差、阀门开度和液冷CDU、自动补水、水质监测、全系统漏液告警等,支持并机、热备和群控,通过群控系统实现组网运行、节能控制,具备主备、轮询、冗余配置、故障切换以及供冷连续性功能。
04
现存问题与实施难点思考分析
为积极响应国家节能减排号召及金融科技发展规划战略指引,紧跟技术发展趋势,G行于2022年对喷淋液冷解决方案进行了创新型探索应用,同时也积累了液冷相关建设、运维经验。通过上面对冷板式液冷的讨论并结合G行在实施液冷系统建设、运维方面的经验,问题与难点主要有以下几个方面:
(1)冷板式液冷数据中心的建设需求与IT设备(尤其是与服务器设备)强相关,当使用不同的IT厂家设备时,机柜尺寸、机柜布局、单机柜功耗、单机柜冷却方式、机柜电源电压等级、电源接口形式、单机柜流量、进出水温度、机柜重量、综合布线需求等都会有所不同。因此了解好以上IT机柜的具体需求是做好基础设施配套系统最关键的因素。建议液冷主机房(含机柜与IT设备)、CDU、二次侧管路由同一厂家提供,确保交付的完整性。
(2)使用冷板式液冷技术的数据中心设计方式与使用风冷的传统数据中心不同,对于存量数据中心节能改造,例如机房的承重荷载、机房的高度、地板下管线路由等都需要重新予以核算。如果贸然更换冷却方式,除了会影响空间利用率外,人员维护和重建成本也将是一笔大的支出。
(3)目前,部分企业和协会推出了液冷细分领域标准,可以进行框架性指导,但未规范涉及关键部件如CDU、快速插接头、供回液管、冷板等细节性设计导致各厂家产品存在兼容性问题,站在客户视角看存在使用的局限性,也不利于大规模部署批量化部署。
(4)关于尺寸问题,如果液冷厂家同时提供机柜、CDU及列间空调,尺寸会统一规划考虑,一般不会有问题。但如果机柜是由IT设备厂家成套,尺寸不统一到货后很难处理,重新统一尺寸会面临货期及造价增加的问题,不统一尺寸实施后无法做到整齐美观,影响感官效果。
在当前信创浪潮以及数字化转型背景下,金融行业信息系统的云化迁移和互联网金融产品的普及对金融行业敏捷响应、业务即时变更等需求增加,对算力的需求也会进一步提升,随之带来的是机柜高密度服务器部署散热及单机柜功率密度的提升,冷板式液冷不失为一种参考路径。
引言
随着云计算、大数据、人工智能等新一代信息技术快速发展,数据呈现爆炸式增长。数据中心作为推动金融科技快速发展和金融行业数字化转型的关键基础设施和重要保障,其建设规模也在不断扩大,能耗占比也越来越高。与此同时,“双碳”目标的持续推进及国家层面节能监管政策的不断趋紧也给数据中心发展戴上了“紧箍咒”,发改委、工信部、机关事务管理局、能源管理局等相关部门频频联合发文对PUE提出明确限制,全国新建大型、超大型数据中心平均电能利用效率降到1.3以下,“东数西算”工程也强化对八大算力枢纽节点10个数据中心集群的绿色发展要求,将PUE指标控制在1.25以内。此外,计算密集型应用场景激增以及业务上云的发展趋势,导致承载这些应用负载的服务器设备功耗大幅增加,数据中心单位空间产生热量的瓦数正在不断上升,单机架功率密度也越来越高。因此,需要新的散热制冷技术去匹配需求增长所带来的设备功率密度的提升同时满足节能监管带来的政策要求。
在政策拉动以及数据中心节能降耗增效等内外部需求驱动背景下,液冷作为可以支持更高功率密度的先进高效制冷解决方案应运而生,其中冷板式液冷因其技术成熟、散热效率高、适应性强、系统噪音小以及运营TCO成本低等优势,为绿色低碳算力中心发展提供了节能创新管理新思路。
02
冷板式液冷系统技术分析
2.1 冷板式液冷系统制冷原理
冷板式液冷主要通过铜、铝等高导热金属构成的封闭腔体将芯片、CPU/GPU、内存等高热密度元器件的热量间接传递给封闭在循环管道中的冷却液体,然后利用冷却液体将热量带走,其根据工作流体的传递特点将中间热量运输到后端进行冷却,通过一次侧和二次侧的结合实现了冷板式液冷系统的整机液体循环,进而达到为IT设备散热的目标。
图1 冷板式液冷系统架构图
2.2 冷板式液冷系统的优势
(1)材料兼容性好。由于冷却液管路中流动时未与主板和芯片模块进行直接接触,材料兼容性较强。在选择冷却液时,可只考虑冷却液与循环管路以及冷板之间的兼容性问题
(2)适应性强,维护便利。冷板式液冷不改变服务器主板原有的形态,同时可直接与原制冷系统(常规冷冻水系统)兼容适用,在技术、产业以及规模化生产上具有更好的可行性。而且服务器安装维护与常规风冷服务器基本一致。
(3) TCO成本较低,运营PUE可低至1.2以下。对于传统的机架式风冷服务器,资源利用率得到显著提升,同时采用高比热的液体工质,循环耗能少且简化了换热流程,可让有限的能源更多分配给算力,从而降低运营成本增加算力产出。
2.3 冷板式液冷的系统设计
冷板式液冷系统包括一次侧(室外)和二次侧(室内)两部分,一次侧指将二次侧的热量排至室外环境或其他热回收单元的环路,包括室外的干冷器和冷水机组等冷源,二次侧指从服务器带走热量并在一次侧进行散热的环路,包括供液环路和服务器内部流道等,两个部分通过 CDU(冷量分配单元)中的板式换热器发生间壁式换热,工质不做混合。
二次侧解决方案相对固定,通过CDU及后面的系统架构进行配置。一次侧根据使用条件和使用场景主要有以下四种解决方案:
(1)水冷冷水机组+冷却塔(开式)+板换
在高热高湿地区,机房环境要求高,直接采用闭式冷却塔/干冷器无法直接满足供冷要求,需要辅助机械制冷装置,冷源通常采用冷水机组+冷却塔的联合供冷方式。系统具有两种运行模式:
模式一:室外温度较低,冷塔+板换即可满足制冷要求,无需冷机开启。
模式二:冷塔出水水温高于CDU需求,需要冷塔+冷机机械补冷。
图2 冷塔+水冷冷机+板换系统示意图
(2)风冷冷水机组
风冷冷水机组将冷凝器、水泵、压缩机等部件合成整体,且通常配置免费冷源模块(如干冷器)以充分利用室外自然冷源,集成度高,适合系统偏小以及缺水地区。系统同样具有两种运行模式:
模式一:室外温度较低,免费冷源模块即可满足制冷要求,无需冷机开启。
模式二:免费冷源模块无法满足CDU的温度要求,直接使用风冷冷机形式。
图3 风冷冷水机组系统示意图
(3)闭式冷却塔/干冷器对于当地气温全年较低,采用闭式冷却塔/干冷器可满足CDU温度要求,全年无需机械制冷。闭式冷却塔以蒸发散热为主,可输出更低的温度,循环系统水质较好,对于CDU等换热设备友好,缺点耗水量较大;干冷器体积较大,单机制冷量偏小,但容易部署,配置湿膜后还可以部分使用蒸发冷却。
图4 闭式冷却塔系统示意图
(4)开式冷却塔
开式冷却塔与闭式冷却塔制冷模式完全相同,缺点是水路与大气相通,导致水质较差。
图5 开式冷却塔系统示意图
上述方案以液冷侧需求为主要考量因素,实际运行过程中机房仍需配备少量空调以满足服务器中低热密度部件(如硬盘、接口卡等)的散热需求。
03
冷板式液冷关键组件设计因素考量
3.1 冷却工质液体的选择
二次侧冷却回路中常用的冷却工质包括水基冷却工质(纯水液或配方液等)和非水基冷却工质(介电液体、矿物油或冷媒等)。其选择需要在满足冷却性能需求的同时,还应满足二次侧冷却回路中所有浸润材料的相容性和长期可靠性,并同时考虑IT设备及冷却工质本身维护的便利性、使用预期寿命及液体的成本等综合因素。此外,还需要考虑冷却工质液体的热性能参数,如比热/潜热、介电/导热系数、动态粘度、密度、闪点等。
3.2 冷板及其配套部件(供回液歧管、快换插接头等)设计的关键考量
冷板应根据芯片的型号尺寸及IT设备的内部结构进行设计,以获得更好的换热效率,在满足芯片整个使用周期内的壳温要求下,尽可能优化流道设计,减小冷板模块的流阻,并适配CDU循环泵工作点扬程能力。同时,考虑配管位置、方向及液体进出口位置,避免与IT设备的结构产生冲突。
供回液歧管作为分配流入或流出机架内 IT 设备冷却工质的关键部件,其位置的选择需确保满足快换接头、电源接口、网络和其他 I/O 的操作要求,包括 IT 设备运行的电缆和软管的管理,同时必须能够提供符合 IT 设备需求的冷却流量,确保机架内冷却工质流量分布均匀,保障 IT 设备可在线移出或接入液冷系统。
快换插接头应满足发生故障时方便更换,分离后切段液冷的同时冷却工质的无泄漏,具备快速更换、在线可插拔维护性能及自封功能。
3.3 漏液检测与干预
二次侧冷却回路中如 CDU、机架、快换接头和计算节点等存在泄漏的导电冷却工质可能造成设备损坏和数据丢失等风险,因此需部署专用泄漏检测硬件如点探测器、薄膜检测带或泄漏检测线缆,能够检测泄漏和快速定位发生泄漏的位置,同时需要吸附、储存和导流装置,避免漏液与高价值设备接触,争取人工处理响应所需的时间。
自动电气和流体干预可以实现高级别的预防,即在发送泄漏事件的同时对 IT 设备进行数据存储、关机或自动断电,同时冷却液关闭。可更大限度避免大量硬件设施暴露接触到泄漏液体中,从而方便维修,减少损失。
3.4 强大且完善的监控系统
冷板式液冷监控系统需覆盖一/二次侧压力、流量、温度、供回液压差、阀门开度和液冷CDU、自动补水、水质监测、全系统漏液告警等,支持并机、热备和群控,通过群控系统实现组网运行、节能控制,具备主备、轮询、冗余配置、故障切换以及供冷连续性功能。
04
现存问题与实施难点思考分析
为积极响应国家节能减排号召及金融科技发展规划战略指引,紧跟技术发展趋势,G行于2022年对喷淋液冷解决方案进行了创新型探索应用,同时也积累了液冷相关建设、运维经验。通过上面对冷板式液冷的讨论并结合G行在实施液冷系统建设、运维方面的经验,问题与难点主要有以下几个方面:
(1)冷板式液冷数据中心的建设需求与IT设备(尤其是与服务器设备)强相关,当使用不同的IT厂家设备时,机柜尺寸、机柜布局、单机柜功耗、单机柜冷却方式、机柜电源电压等级、电源接口形式、单机柜流量、进出水温度、机柜重量、综合布线需求等都会有所不同。因此了解好以上IT机柜的具体需求是做好基础设施配套系统最关键的因素。建议液冷主机房(含机柜与IT设备)、CDU、二次侧管路由同一厂家提供,确保交付的完整性。
(2)使用冷板式液冷技术的数据中心设计方式与使用风冷的传统数据中心不同,对于存量数据中心节能改造,例如机房的承重荷载、机房的高度、地板下管线路由等都需要重新予以核算。如果贸然更换冷却方式,除了会影响空间利用率外,人员维护和重建成本也将是一笔大的支出。
(3)目前,部分企业和协会推出了液冷细分领域标准,可以进行框架性指导,但未规范涉及关键部件如CDU、快速插接头、供回液管、冷板等细节性设计导致各厂家产品存在兼容性问题,站在客户视角看存在使用的局限性,也不利于大规模部署批量化部署。
(4)关于尺寸问题,如果液冷厂家同时提供机柜、CDU及列间空调,尺寸会统一规划考虑,一般不会有问题。但如果机柜是由IT设备厂家成套,尺寸不统一到货后很难处理,重新统一尺寸会面临货期及造价增加的问题,不统一尺寸实施后无法做到整齐美观,影响感官效果。
在当前信创浪潮以及数字化转型背景下,金融行业信息系统的云化迁移和互联网金融产品的普及对金融行业敏捷响应、业务即时变更等需求增加,对算力的需求也会进一步提升,随之带来的是机柜高密度服务器部署散热及单机柜功率密度的提升,冷板式液冷不失为一种参考路径。