Con el último chip H100 de Nvidia que consume nada menos que 700 vatios cuando se configura en un zócalo SXM y unos considerables 400 vatios cuando se configura a través de PCI-E, no es de extrañar que 2024 haya sido el año en el que la refrigeración líquida ha pasado a ocupar un lugar destacado en las mentes de toda la industria de los centros de datos.
El auge de la IA ha obligado a los operadores a mirar más allá de las soluciones tradicionales de refrigeración por aire que la gran mayoría de los centros de datos aprovechan para mantener sus sistemas de TI funcionando de manera eficiente.
Las nuevas soluciones de refrigeración líquida están cobrando protagonismo, impulsadas por la necesidad de los propietarios y operadores de idear diseños completamente nuevos para sus nuevas instalaciones, y la mayoría también tiene que equilibrar esto con la modernización y actualización de los sitios industriales actuales.
Por el momento, estas cargas de trabajo parecen ir en aumento en todos los aspectos, ya sea la necesidad de energía, refrigeración, ancho de banda o almacenamiento de datos. Por ejemplo, la próxima generación Blackwell de Nvidia lleva el consumo de energía a nuevas cotas. Se espera que la GPU B200 consuma hasta 1200 W, mientras que la GB200 (que incluye dos GPU B200 combinadas con una CPU Grace) podría alcanzar la asombrosa cifra de 2700 W. Esto supone un asombroso aumento del 300% en el consumo de energía en una sola generación de GPU, lo que refleja las crecientes demandas energéticas de los sistemas de IA.
El mercado de refrigeración líquida también está experimentando un momento de protagonismo: los analistas estiman que el segmento de refrigeración de centros de datos alcanzará la asombrosa cifra de 16,8 mil millones de dólares para 2028, con una CAGR del 25 por ciento, y la refrigeración líquida emerge como la tecnología predominante y el mayor impulsor de esto.
A medida que las cargas de procesamiento de IA se expanden con implementaciones cada vez más amplias e intensivas, los racks de IA de ultraalta densidad se están convirtiendo en una realidad. Estos racks pueden demandar 100 kW de energía y albergar equipos valuados en más de 10 millones de dólares por rack, y a menudo dependen de refrigeración líquida por inmersión o directa al chip. Este cambio presenta desafíos significativos a la hora de brindar energía, espacio y refrigeración adecuados para dar cabida a niveles de carga de trabajo sin precedentes.
Antes de decidirse por una estrategia de refrigeración basada en inteligencia artificial, los propietarios y operadores deben evaluar un amplio espectro de consideraciones de ingeniería. Estas decisiones deben tener en cuenta no solo las limitaciones de la cadena de suministro, sino también los objetivos de sostenibilidad y ambientales, sociales y de gobierno corporativo a largo plazo.
De la gran cantidad de soluciones de refrigeración líquida, parece que la tecnología de placas frías y las soluciones directas al chip más amplias están liderando la carga en términos de adopción. La preferencia por la refrigeración directa al chip y, específicamente, la refrigeración líquida de placas frías se atribuye a su eficacia en el manejo de entornos informáticos de alta densidad y su compatibilidad con las infraestructuras de centros de datos existentes. Este método ofrece un equilibrio entre el rendimiento y la complejidad de la implementación, especialmente para sitios industriales abandonados y renovaciones. Dicho esto, es muy probable que los sitios nuevos impulsen un aumento en las implementaciones de refrigeración por inmersión, ya sea monofásica o bifásica.
Desde finales de 2022, los proveedores han trabajado arduamente para encontrar el punto medio entre la innovación y la gestión de riesgos, aportando nuevas soluciones al mercado, algunas de las cuales difuminan los límites entre la tecnología directa al chip y la inmersión.
Accelsius presentó su solución de refrigeración directa al chip de dos fases NeuCool en abril de 2024. Utiliza un refrigerante dieléctrico que se evapora al absorber el calor de componentes de alta potencia, como CPU y GPU. Luego, el vapor se condensa y recircula, lo que crea un circuito de refrigeración eficiente. Esto admite hasta 2200 W por zócalo y hasta 100 kW por rack, lo que lo hace adecuado para las necesidades informáticas de alto rendimiento actuales y futuras. Además, el sistema funciona bien con equipos antiguos basados en aire en los que los disipadores térmicos se reemplazan por sus "vaporizadores" patentados de CPU y GPU. Estos están diseñados para colocarse en la misma ubicación y factor de forma que los disipadores térmicos, por lo que este tipo de tecnología puede convertirse en la solución de facto para las instalaciones existentes que necesitan una actualización para soportar los requisitos de estas nuevas cargas de trabajo.
Esta solución puede funcionar con o sin el uso de agua y es completamente modular. Como tal, permite una integración perfecta en las infraestructuras de centros de datos existentes. Se adapta a los racks de servidores estándar, lo que facilita la implementación en una variedad de instalaciones, desde centros de datos de borde hasta centros de datos de hiperescala. El sistema es compatible con varios sistemas de rechazo de calor final, incluidas las opciones de refrigerante bombeado sin agua.
Chilldyne, por otro lado, ha ideado una solución directa al chip que elimina uno de los principales riesgos de la refrigeración líquida: las fugas. La solución, que se muestra en la imagen, funciona creando un vacío que aspira y hace circular el refrigerante en el sistema y a través de las placas frías montadas en la CPU/GPU.
Si se produce una rotura en uno de los tubos que transportan el líquido, el vacío garantiza que no se derrame líquido y que entre aire. El sistema también supervisa continuamente los cambios de presión y alerta al propietario/operador si algo ha ido mal. Además, en determinadas configuraciones, el sistema puede aislar la sección afectada, lo que minimiza el impacto en otros componentes. Después de publicar esto, Chilldyne centró su atención en los sitios abandonados y, en julio de 2024, lanzó un kit de inicio de refrigeración líquida plug-and-play diseñado para modernizar los centros de datos y soportar cargas de trabajo de IA. El kit incluye dos CDU y placas frías con una potencia nominal de hasta 2000 vatios, lo que admite hasta 150 kW de refrigeración por rack.
Otros proveedores están apostando a lo grande por la nueva ola de sitios web nuevos que están comenzando a funcionar en este momento, con empresas como Asperitas, LiquidStack y Submer cubriendo sus apuestas en un tipo diferente de refrigeración líquida: la inmersión.
Estos sistemas son bifásicos o monofásicos y se basan en el concepto de sumergir los servidores directamente en un recipiente con fluido dieléctrico y utilizar el alto potencial de transporte de calor de estos fluidos para alejar el calor del equipo de TI. Estos diseños ofrecen una eficiencia de refrigeración extremadamente alta, pero también plantean desafíos, en particular en lo que respecta a su integración en centros de datos refrigerados por aire ya existentes.
Los sistemas de refrigeración líquida (de cualquier tipo) requieren una inversión inicial significativa en equipos, independientemente de si se instalan en instalaciones nuevas o en zonas industriales abandonadas. Y si bien la refrigeración líquida ofrece ahorros de energía a largo plazo, los propietarios y operadores aún tienen dudas sobre la necesidad de refrigeración líquida en instalaciones más pequeñas y de baja densidad.
La adopción de refrigeración líquida dentro del espacio del centro de datos está impulsada por la carga de trabajo en sí, por lo que es poco probable que las instalaciones que no ofrecen servicios de IA o HPC vean la necesidad de actualizar su infraestructura de refrigeración, ya que la refrigeración por aire es más que suficiente para la mayoría de los casos de uso.
La falta de estandarización de las piezas que componen la solución de refrigeración líquida es otro obstáculo para su adopción: componentes como colectores, depósitos e incluso la forma en que se conecta la unidad de refrigeración por líquido varían de un proveedor a otro. Las presiones regulatorias, junto con el impulso hacia una industria de centros de datos sostenible, han hecho que ciertas soluciones sean menos deseables a pesar de que cuentan con un gran potencial de eficiencia energética. Estas preocupaciones giran principalmente en torno al uso del agua, los impactos químicos, el consumo de energía y la gestión de residuos. Por ejemplo, ciertos fluidos pueden requerir procesos especiales de manipulación y eliminación debido a sus propiedades químicas.
El mercado de refrigeración líquida aún tiene mucho margen de crecimiento y, a medida que la industria avanza hacia la estandarización y los proveedores siguen ideando soluciones que atienden la gran cantidad de riesgos que conlleva esta tecnología, la amplitud de su adopción no hará más que aumentar. Después de todo, las leyes de la física no han cambiado ni cambiarán en un futuro próximo: en términos generales, cada vatio de potencia adicional que necesita un chip significa un vatio de calor mediante transferencia de energía que debe eliminarse.