Por Paul Finch, director de tecnología y operaciones de Kao Data
La era de la IA generativa ya está aquí. Según JLL, se encuentra entre las tres tecnologías principales que se espera que tengan el mayor impacto en el sector inmobiliario, habiendo alcanzado inversiones récord de hasta 4.000 millones de dólares en tecnologías inmobiliarias impulsadas por IA (PropTech) en 2022.
El informe de 2024 de JLL también encontró que las demandas de energía de IA (que van desde 300 a 500 MW+) requerirán una gran cantidad de diseños de centros de datos energéticamente más eficientes.
Desde una perspectiva industrial, las cifras son realmente asombrosas. Analistas de TD Cowen han afirmado que la ola de IA ha dado lugar a aproximadamente 2,1 GW de alquileres de centros de datos en Estados Unidos, mientras que el informe European Real Estate Market Outlook 2024 de CBRE concluyó que los proveedores de centros de datos verán un repunte en las solicitudes de capacidad relacionadas con los requisitos de inteligencia artificial (IA), y se espera que la mayoría de estas provengan de proveedores de servicios y empresas emergentes de IA, en lugar de miembros de las comunidades de hiperescala y de la nube.
Ahora que la IA se está introduciendo en todos los aspectos de los productos, servicios y soluciones tecnológicas, muchos se preguntan si la industria de los centros de datos está realmente preparada para satisfacer sus necesidades. La respuesta, para muchos operadores, es no.
Enfriando las cargas de trabajo de la IA del futuro
En la actualidad, se estima que Nvidia, la principal autoridad mundial en computación de alto rendimiento (HPC) e IA, es responsable de más del 95 por ciento de las cargas de trabajo de aprendizaje automático y sigue siendo el fabricante dominante de tecnologías aceleradas por GPU.
El año pasado, la empresa compartió la noticia de que había ganado una subvención de $5 millones para rediseñar el panorama del centro de datos y construir un sistema avanzado de enfriamiento líquido para abordar muchos de los desafíos que enfrentan los centros de datos tradicionales, incluidos los locales, las empresas y las instalaciones de coubicación más antiguas.
Financiado por el Departamento de Energía de EE. UU., el programa COOLERCHIPS se ha posicionado como uno de los proyectos más ambiciosos que la industria haya visto jamás, y en un momento en que las capacidades de calor y energía del procesador se disparan a medida que la Ley de Moore y los diseños de los centros de datos alcanzan sus límites físicos.
Algunos esperan que pronto las tecnologías tradicionales de refrigeración por aire para centros de datos queden obsoletas, especialmente a medida que la adopción de la IA y los avances en supercomputación se aceleren, y que el sistema de refrigeración de Nvidia pueda costar aproximadamente un 5 por ciento menos y funcionar hasta un 20 por ciento más eficientemente que los enfoques refrigerados por aire. También se espera que las tecnologías de refrigeración comiencen a alcanzar sus límites, ya que las cargas térmicas de más de 40 vatios por centímetro cuadrado enfrentarán desafíos significativos en el futuro.
No es de extrañar, ya que el último Nvidia SuperPOD incluye hasta ocho GPU H100 por sistema, todas ellas conectadas mediante Nvidia NVLink. Se espera que cada DGX H100 proporcione hasta 32 petaflops de rendimiento de IA, alrededor de seis veces más que su predecesor, el DGX A100, que ya estaba poniendo límites a las capacidades tradicionales de los centros de datos.
Para agregar más contexto desde el punto de vista del diseño y la energía, un Nvidia SuperPOD puede incluir hasta 32 sistemas DGX H100 con la infraestructura de conectividad InfiniBand asociada, con un consumo de hasta 40,8 kW de energía por rack. Según los estándares actuales, eso podría considerarse una cantidad obscena de potencia de procesamiento y capacidad de inteligencia artificial, pero se espera que las densidades de potencia y de rack aumenten.
Curiosamente, las nuevas GPU Blackwell de Nvidia están diseñadas para permitir a las empresas crear y ejecutar aplicaciones de IA generativa en tiempo real y modelos de lenguaje de gran tamaño a un coste y consumo de energía hasta 25 veces menores que su predecesora, lo que allana el camino para los centros de datos diseñados para la IA. La pregunta sigue siendo: ¿cómo deberán evolucionar los centros de datos para adaptarse a los requisitos de refrigeración de la IA y qué organizaciones serán las ganadoras en la carrera?
El futuro de la refrigeración de los centros de datos
El debate sobre las metodologías de refrigeración sigue siendo una de las conversaciones más divisivas dentro de la industria. En un bando están aquellos que abogan por los sistemas refrigerados por aire y reconocen los beneficios de la refrigeración por aire gratuito en comparación con un enfoque refrigerado por líquido, que a menudo requiere una gran inversión en gastos de capital, una modernización de una arquitectura de centro de datos heredada.
En el otro lado están los propietarios y operadores que ya están llevando a cabo proyectos de prueba de concepto (POC) e implementando entornos híbridos: aquellos que están desarrollando sistemas de infraestructura de alto rendimiento diseñados con precisión para acomodar aplicaciones de uso intensivo de cómputo a escala industrial.
Los beneficios de la refrigeración líquida
Ahora que se espera que las densidades de rack superen los 100 kW, está claro que la refrigeración líquida se volverá cada vez más popular.
Para quienes adoptan esta tecnología, los beneficios son significativos. Muchas de las soluciones de refrigeración líquida actuales aprovechan las propiedades de transferencia térmica más elevadas del agua y otros fluidos para enfriar los racks de alta densidad de manera más eficiente y eficaz que las medidas tradicionales.
Enfoques como este también se ven reforzados por estudios de organizaciones como Iceotope y Meta, que confirmaron la practicidad, eficiencia y eficacia de la refrigeración líquida de precisión para satisfacer los requisitos de refrigeración de los hiperescaladores, donde la refrigeración líquida ha ganado cierta aceptación entre los miembros de la comunidad.
Con la refrigeración líquida DTC, entre el 70 y el 75 por ciento del calor generado por el equipo del rack se elimina a través del agua, mientras que el 25-30 por ciento restante se elimina a través del aire. Debido a que la refrigeración directa al chip es más efectiva desde la perspectiva de la transferencia de calor, puede soportar mayores densidades de CPU y GPU y, al mismo tiempo, ofrecer importantes capacidades de reutilización del calor.
Las organizaciones del sector también han predicho que la refrigeración líquida puede ser hasta 3.000 veces más efectiva que el uso de aire, todo lo cual apunta a que la refrigeración líquida tiene el potencial de convertirse en la arquitectura de refrigeración preferida del futuro y algo que será vital para cumplir con los requisitos de sostenibilidad del centro de datos.
El futuro de la IA generativa es a la vez apasionante y desconocido, pero si la Ley de Moore está llegando a sus límites físicos, todos los caminos conducen a la refrigeración líquida como la única opción para la computación futura impulsada por GPU.