Por Tina Tosukhowong, directora de inversiones en TDK Ventures
En esta era centrada en los datos, donde se genera y procesa un inmenso volumen de datos cada segundo, los centros de datos desempeñan un papel fundamental en la configuración de nuestra sociedad.
Como se destaca en el informe de McKinsey, se prevé que el mercado de centros de datos de EE. UU. experimente una sólida tasa de crecimiento anual del 10 por ciento en los próximos años. Este aumento está impulsado por factores como la creciente adopción de la computación en la nube, la creciente prevalencia del Edge Computing y el énfasis cada vez mayor en la toma de decisiones basada en datos tanto en los dominios empresariales como tecnológicos, especialmente dada la aparición de la IA y la IA generativa.
La adopción de refrigeración líquida en los centros de datos es una tendencia inevitable
El procesamiento de datos genera una cantidad importante de calor en los chips y servidores, lo que requiere una tecnología de refrigeración avanzada para que el centro de datos funcione sin problemas. En la actualidad, el 80 por ciento de los centros de datos utilizan refrigeración por aire, lo que representa el 40 por ciento del consumo total de energía en los centros de datos.
Además del alto consumo de energía, el consumo de agua es otra preocupación operativa. En la mayoría de los centros de datos refrigerados por aire, el aire caliente de los racks de TI se expulsa mediante enfriamiento por evaporación en torres de enfriamiento centrales. Por ejemplo, un centro de datos promedio de Google consume 450.000 galones de agua al día, aproximadamente el equivalente a 0,7 piscinas olímpicas. Otras grandes empresas tecnológicas informan de escalas de consumo de agua comparables, como Meta, que extrajo alrededor de 5 millones de metros cúbicos de agua en 2021, el equivalente a 2.000 piscinas olímpicas.
Además de las consideraciones ambientales, la adopción más amplia de la IA aumenta la urgencia de abandonar la refrigeración por aire. Satisfacer las demandas del procesamiento paralelo requiere mayor potencia de procesamiento y densidad de racks.
En la actualidad, los centros de datos funcionan con una densidad de potencia de alrededor de 8 a 10 kW por rack, pero se espera que esta cifra aumente a 40-100 kW en el caso de los racks preparados para IA equipados con GPU que consumen mucha energía. La potencia de diseño térmico (TDP) de los procesadores se ha quintuplicado en la última década y se espera que esta tendencia continúe. A medida que aumenta la densidad de potencia de los racks y la generación de calor, la refrigeración por aire tradicional se vuelve poco práctica, con un límite superior de eficacia de aproximadamente 20 kW por rack. Más allá de este umbral, la refrigeración líquida, ya sea mediante métodos directos al chip o por inmersión, se vuelve imprescindible para una disipación eficiente del calor, lo que ofrece una solución más eficiente en términos de energía y agua.
Después del auge de la IA generativa en 2023, los principales actores en el espacio de los centros de datos hicieron anuncios sobre la adopción de refrigeración líquida y todos eligieron la solución de refrigeración Direct-to-Chip, a menudo junto con sus chips de IA y el desarrollo de centros de datos centrados en IA.
Tecnologías de refrigeración líquida para centros de datos
La refrigeración directa al chip y la refrigeración por inmersión son los dos métodos principales de refrigeración líquida para eliminar el calor de la infraestructura de TI en los centros de datos. La solución de refrigeración directa al chip se basa en la circulación de un fluido a través de un intercambiador de calor de placas frías situado directamente en el chip de la computadora. El calor emitido por el chip se absorbe en el circuito de refrigeración. Este método no altera significativamente el factor de forma de los servidores y los bastidores, lo que permite una fácil adaptación a los centros de datos refrigerados por aire existentes.
Por otro lado, el enfriamiento por inmersión implica sumergir los servidores en un fluido dieléctrico, no conductor de electricidad. La inmersión puede ocurrir a nivel del chasis de TI o a nivel del rack. Cuando se realiza a nivel del rack, este suele estar configurado horizontalmente como un tanque de inmersión en lugar de la configuración vertical convencional. Debido a esta configuración de rack específica, el enfriamiento por inmersión es más adecuado para proyectos nuevos y, por lo general, requiere la implementación de nuevos protocolos y equipos de manipulación.
Tanto los sistemas de refrigeración directa al chip como los de inmersión se pueden subcategorizar en configuraciones monofásicas y bifásicas. En un sistema monofásico, el refrigerante se mantiene constantemente en estado líquido durante todo el proceso de refrigeración. El calor es absorbido por el refrigerante líquido, que posteriormente lo aleja de la fuente. Por el contrario, los sistemas bifásicos implican un proceso dinámico en el que el refrigerante experimenta un cambio de fase de líquido a vapor en la fuente de calor y luego se condensa de nuevo a un estado líquido en el condensador. Este cambio de fase ayuda a mejorar la eficiencia de refrigeración.
Además de las configuraciones estándar de enfriamiento directo al chip y por inmersión, los desarrolladores de soluciones de enfriamiento y los diseñadores de chips también están impulsando soluciones de enfriamiento de tamaño reducido e integradas directamente en paquetes de chips.
Como parte del programa COOLERCHIPS de ARPA-E, Nvidia y HP están trabajando conjuntamente para avanzar en la tecnología de refrigeración microfluídica integrada a nivel de oblea de silicio. La validación exitosa de este enfoque podría allanar el camino para integrar sin problemas la solución de refrigeración dentro de la arquitectura del chip y mejorar intrínsecamente el rendimiento de refrigeración del chip.
Posibles obstáculos para las empresas emergentes de refrigeración de centros de datos
A pesar de la creciente demanda de soluciones de refrigeración para centros de datos, las empresas emergentes en este campo enfrentan posibles obstáculos para su ampliación.
En primer lugar, la naturaleza fragmentada de la cadena de valor dentro de los centros de datos plantea un desafío para las empresas emergentes a la hora de identificar al responsable de la toma de decisiones clave para la adopción más amplia de soluciones de refrigeración. Además, la naturaleza personalizada de los diseños de los centros de datos puede impedir la escalabilidad perfecta de las soluciones de refrigeración en todas las instalaciones.
Otro desafío surge de la competencia con los actores establecidos de la industria. Los grandes fabricantes de chips, en particular, están ampliando activamente los límites de las soluciones de refrigeración. Por ejemplo, Nvidia está desarrollando refrigeración por inmersión a nivel de chasis utilizando refrigerantes de cambio de fase. Mientras tanto, Intel está explorando cavidades de cámara de vapor 3D integradas en disipadores de calor de refrigeración por inmersión con forma de coral y chorros de fluido que se pueden integrar directamente en los paquetes de chips.
Estos gigantes de la industria poseen capital y recursos superiores, lo que les permite avanzar tecnológicamente con rapidez y, fundamentalmente, aumentar la producción velozmente para satisfacer la creciente demanda, creando una fuerte barrera competitiva para las empresas emergentes.
¿Cómo es el rey de la colina en la refrigeración de un centro de datos?
- Rendimiento de enfriamiento excepcional, demostrado a través de métricas técnicas como la potencia máxima de diseño térmico (TDP) admitida, el flujo de calor y la densidad de rack habilitada.
- Alta asequibilidad, evidente en el costo total de propiedad del producto, que abarca tanto el CAPEX como el OPEX de la solución, y también el ahorro de costos logrado a través de la mejora de la efectividad del uso de energía (PUE) y la efectividad del uso de agua (WUE).
- Alta capacidad de servicio, indicada por la facilidad de instalación/integración y mantenimiento del producto.
- Alto nivel de preparación para la fabricación (MRL), calificado por las capacidades de fabricación de las empresas y la preparación de la cadena de suministro de componentes y refrigerantes. Un ejemplo reciente es la eliminación gradual del refrigerante 3M Novec debido a las regulaciones sobre PFAS, lo que ha creado un desafío significativo en la cadena de suministro para muchos desarrolladores de soluciones de refrigeración de dos fases.
- Una sólida capacidad de defensa de la propiedad intelectual es crucial para diferenciar y salvaguardar el diseño de la tecnología, en particular en un espacio con bajas barreras de entrada y una intensa competencia tanto de empresas emergentes como de actores tradicionales.
En TDK Ventures, creemos que la evolución de la IA, particularmente el auge de la IA generativa, catalizará un crecimiento exponencial en la potencia computacional requerida, lo que requerirá una adopción más amplia de la refrigeración líquida.
En este panorama dinámico, tanto las empresas tradicionales como las emergentes están impulsando activamente avances en refrigeración líquida, que van desde la configuración del sistema hasta el desarrollo de nuevos materiales refrigerantes.
Estamos buscando activamente desarrolladores de soluciones de enfriamiento que cumplan con nuestros criterios de "Rey de la colina", demostrando no solo excelencia en tecnología, sino también la agilidad para escalar rápidamente en respuesta a la creciente demanda, posicionándose estratégicamente para posibles salidas en los próximos años.