过去几年来,很多数据中采用了某种形式的液体冷却技术。此外,芯片制造商开始设计功能更强大的核心处理器,由于这些处理器功率越来越高,很难采用空冷技术进行有效冷却,采用液体冷却技术成为了更好的选择。
在不同领域,人们对液体冷却技术的认识和兴趣明显增强,这是由各种应用和动机驱动的。50年前,液冷技术最初用于早期的大型机,而现在开始与新的超级计算机和高性能计算(HPC)系统重新融合。尽管如此,IT设备采用的空气冷却技术仍然占据了大多数传统数据中心制冷的主导地位。然而,驱动企业和托管设施市场采用冷却技术的主要因素是功能、性能、成本效益。
人们可以从初始前期投资(CapEx)、运营成本(OpEx)和投资回报率(ROI)这几种不同的角度看待成本效益。此外,对于数据中心设施和IT设备来说,这些因素的影响也不尽相同。在此关头,尽管目前数据中心设施在物理空间和电力容量方面都发生了变化,但风冷IT设备与数据中心设计和构建的结合已经相对成熟。相对于数据中心设施的IT设备指标集中在机架数量和机架的功率密度上。对于给定数量的IT设备功率负载(需要多少空间和功率分配(每个机架的IT设备数量和大小)来说,这最终成为一项经济决策。
例如在大型数据中心,每个机架的平均功率5kW,并部署了200个机架,而每个机架部署数十个IT设备和PDU。如果设备部署在托管数据中心中,则用户只需要为所需的空间和IT设备使用的电费支付费用。显然,如果每机架的功率为10kW,则机架和空间的数量可以减少50%,但总功率却是相同的。这个比率显然被过度简化了,还有许多其他因素(网络电缆和设备,以及存储系统和服务器/刀片服务器的功率密度类型)会影响这个比率降低的准确性。
尽管毫无疑问, IT设备功率密度平均要求已经提高到可以满足性能要求,但从理论上讲,这应该需要较少的空间和每兆瓦的关键负载所需的机架数量。实际上,这种机架功率密度比会影响数据中心设施的资本支出和运营支出,以及IT设备所有者/用户,这就是为什么将其称为“机架经济学(rackonomics)”,这是Blade Network Technologies公司在2008年提出的概念。
实际上,许多老旧的数据中心设施(企业内部部署数据中心或托管数据中心)每个机架功率有效地限制在5kW左右,但较新的数据中心设施的设计为每个机架10至20 kW。
这仍然不能确保完全实现更高的功率/空间比的最大好处。这个比率假定所有机架实际上都已加载到接近或处于最高功率水平,而在混合IT设备环境中通常不是这种情况。在许多典型的企业方案中,每个机架的最大功率与最小功率之比为5:1到10:1,每个机架的最大功率和平均功率之比可能为3:1到5:1。这些比率影响了机架经济学。
即使在使用数千台1U服务器或刀片式服务器的超大型数据中心环境中,它们的平均功率密度也很少达到或超过每机架10kW到15kW。这在一定程度上受限于风扇功率和散热成本,随着功率密度的增加(冷却系统和内部IT设备风扇),这些成本往往会大幅增加。尽管超大规模数据中心运营商(托管数据中心和互联网云计算服务)建造了大型数据中心设施,但相对于电力和冷却基础设施成本而言,大型建筑外壳成本在资本支出中所占比例相对较低。
液体冷却方案主要集中在更高的功率密度应用(例如每个机架25 kW、50 kW和100 kW)。可在空气冷却设施中以最小的影响或无影响的方式进行部署。例如,在每个机架50kW时,它只需要20个液冷IT设备机架来提供1MW的电力容量。在许多情况下,液冷IT设备不需要机械冷却和冷却水。这节省了冷水机组的资本支出和运营成本,同时减少了80%的机架、PDU和相关设备的成本。
似乎出现的问题之一是内排式、后门式或封闭式机柜液体冷却系统(用于标准风冷IT系统)的成本要比传统数据中心空气冷却系统的成本更加昂贵。尽管这在一定程度上是正确的,但管道成本与将它们改装到运营数据中心的现有冷却系统中有关。确实,目前液冷IT设备比其空气冷却设备更昂贵。但是,其价格是受几个因素驱动的。第一个是数量,特别是部署高功率的小容量水冷服务器的成本,其功率密度通常为每1U 为1到2 kW。
在此,基于CPU和内存的液冷散热器的液冷服务器开始改变机架经济学。像联想这样的主要OEM厂商一直在提供更多具有液体冷却功能的高性能计算(HPC)服务器和刀片服务器产品。这些机架式服务器的机架能够以50至60 kW的功率运行。尽管目前还没有直接的成本竞争优势(部分是由于销量低),但机架经济学的比率开始变得更加明显。冷却运营成本(OpEx)也可以发挥作用,因为它们可以使用温水(符合ASHRAE W4标准)运行。
另一方面,开放计算项目(OCP)组织于2018年7月推出了高级冷却解决方案(ACS)子项目,重点关注如何使用液体冷却来提高冷却性能和能源效率以及降低成本的硬件。
今年7月,Cerebras Systems公司推出晶圆级引擎(WSE)处理器,该公司这是有史以来其生产的规模最大的商用芯片,旨在解决深度学习计算问题。晶圆级引擎(WSE)将1.2万亿个晶体管封装在一个215 x 215毫米的芯片上,该芯片具有通过100Pbit/s互连连接的40万个经过人工智能优化的内核。晶圆级引擎(WSE)的最大功率为15kW,因此它需要采用液冷技术。
实际上,很难将相对的便利性与“机架和堆叠”相匹配,并为大多数风冷IT设备提供服务。此外,人们已经看到了用于风冷IT设备的冷却系统以及IT设备本身的巨大改进。但是,这种简单性并不是突然发生的。数据中心布局和机柜从从大型主机时代的从顶部到底部气流的前置、固态前端IT机柜发展到当今的热通道/冷通道布局,已经花费了很多年。实际上,即使到上世纪90年代后期,通用IT设备机柜也很少。
液体冷却系统具有多种形式,仍在不断发展,并且具有许多技术优势。但是,由于尺寸等问题在供应商之间不能互换,这也阻碍了一些用户的购买和使用,并且可能无法迅速接受变化。十多年前,当互联网巨头首次开始使用自然冷却技术时,传统的企业数据中心用户对此并不在意。
传统的数据中心花费多年的时间才超越了ASHRAE的第一版“热指南”(2004年),该指南定义了最初的推荐的68°F至77°F环境范围。2011年,ASHRAE发布了第三版的“热指南”,其中包含了直接在空气中自然冷却信息。它还引入了“允许的”环境包络类别A1-A4,IT设备进气温度高达113°F。自2006年以来,很少有人知道ASHRAE推出的液体冷却指南。
今年,ASHRAE发布了一份名为“水冷式服务器——通用设计、组件和流程”的白皮书。目前,包括ASHRAE、绿色网格开放计算项目(OPC)、Open 19和美国能源部(DOE)在内的多个组织正在合作,为液体冷却创建框架、指南和规范,其中包括适用于IT设备和机架的外形尺寸、管道、快速断开无滴漏接头、冷却液分配歧管等冷却设备。
为了应对气候变化,数据中心行业和IT设备制造商在整体能效方面进行了许多改进。Nautilus公司的漂浮式数据中心以及微软公司的水下数据中心(例如Natick项目)通过使用海水进行冷却来宣传其冷却效率。与传统的基于压缩机的机械冷却相比,其排入水中的废热能效更高。但是,即使PUE为1.0x,其热量也会被排到外界环境中,因此水下数据中心仍然无法真正缓解气候变化。
尽管在能源回收方面已经做了一些努力,但要有效地回收IT设备的余热是非常困难或昂贵的。采用液体冷却技术的好处之一在于ASHRAE W4(不超过113°F)和W5(高于113°F)两类IT设备,它们可以在140°F到150°F的温度下输送绝缘流体,这些流体的温度范围为很大一部分能量回收提供了更具成本效益的机会。
随进入下一个十年,建设和运营千兆瓦级园区的超大规模数据中心已成为新常态,这在提高能源效率和利用可持续能源方面处于领先地位。人们相信,液体冷却技术的不断发展和应用范围的扩大将由这些超大规模数据中心运营商成为市场主导,而不仅仅是为了“机架经济学”。