Com o mais recente chip H100 da Nvidia consumindo até 700 watts quando configurado em um soquete SXM e 400 watts quando configurado via PCI-E, não é de admirar que 2024 tenha sido o ano em que o resfriamento líquido disparou para a vanguarda das mentes em toda a indústria de data center.

O boom da IA forçou as operadoras a olhar além das soluções tradicionais de resfriamento de ar que a grande maioria dos data centers utiliza para manter seus sistemas de TI funcionando com eficiência.

Nvidia_tech_specs.width-358
As GPUs Nvidia precisam de muito resfriamento – Nvidia

Novas soluções de refrigeração líquida estão surgindo, impulsionadas pela necessidade de proprietários e operadores criarem projetos completamente novos para suas novas instalações greenfield, com a maioria também tendo que equilibrar isso com o retrofit e a atualização dos atuais locais brownfield.

Essas cargas de trabalho, no momento, parecem estar ficando maiores em todos os requisitos - seja a necessidade de energia, resfriamento, largura de banda e armazenamento de dados. Por exemplo, a próxima geração Blackwell da Nvidia leva o consumo de energia a novos patamares. Espera-se que a GPU B200 consuma até 1.200 W, enquanto a GB200 - com duas GPUs B200 emparelhadas com uma CPU Grace - pode atingir impressionantes 2.700 W. Isso marca um salto impressionante de 300% no consumo de energia em uma única geração de GPU, refletindo as demandas aceleradas de energia dos sistemas de IA.

Liquid_v_air_cooling_forecast.width-358
– Omdia

O mercado de refrigeração líquida também está passando por um momento de destaque - com analistas colocando o segmento de refrigeração de data center para atingir impressionantes 16,8 bilhões de dólares (97 bilhões de reais) até 2028, a um CAGR de 25%, com refrigeração líquida emergindo como a tecnologia predominante e o maior impulsionador disso.

À medida que as cargas de computação de IA se expandem com implantações cada vez mais amplas e intensivas, os racks de IA de densidade ultra-alta estão se tornando uma realidade. Esses racks podem exigir 100 kW de energia e abrigar equipamentos avaliados em mais de 10 milhões de dólares (57,7 milhões de reais) por rack, muitas vezes contando com resfriamento líquido direto ao chip ou imersão. Essa mudança apresenta desafios significativos no fornecimento de energia, espaço e resfriamento adequados para acomodar níveis de carga de trabalho sem precedentes.

Antes de definir uma estratégia de resfriamento de computação de IA, proprietários e operadores devem avaliar um amplo espectro de considerações de engenharia. Essas decisões devem levar em conta não apenas as restrições da rede de suprimentos, mas também os objetivos corporativos de ESG e sustentabilidade de longo prazo.

Da infinidade de soluções de refrigeração líquida, parece que a tecnologia de placas frias e soluções diretas mais amplas no chip estão liderando a carga em termos de adoção. A preferência pelo resfriamento líquido direto ao chip e, especificamente, à placa fria é atribuída à sua eficácia no manuseio de ambientes de computação de alta densidade e sua compatibilidade com as infraestruturas de data center existentes. Esse método oferece um equilíbrio entre desempenho e complexidade de implementação, especialmente para locais brownfield e retrofits. Dito isto, os locais greenfield provavelmente impulsionarão um aumento nas implantações de resfriamento por imersão - monofásicas ou bifásicas.

Desde o final de 2022, os fornecedores têm trabalhado arduamente para encontrar o meio-termo entre inovação e gerenciamento de riscos, trazendo novas soluções para o mercado, com alguns confundindo as linhas entre direto no chip e imersão.

A Accelsius revelou sua solução de resfriamento bifásico NeuCool direto ao chip em abril de 2024. Ele utiliza um refrigerante dielétrico que evapora ao absorver o calor de componentes de alta potência, como CPUs e GPUs. O vapor é então condensado e recirculado, criando um circuito de resfriamento eficiente. Isso suporta até 2.200 W por soquete e até 100 kW por rack, tornando-o adequado para as necessidades atuais e futuras de computação de alto desempenho. Além disso, o sistema funciona bem para equipamentos mais antigos, baseados em ar, onde os dissipadores de calor são substituídos por seus "vaporizadores" proprietários de CPU e GPU. Eles são projetados para se encaixar no mesmo local e formato dos dissipadores de calor, para que esse tipo de tecnologia possa se tornar a solução de fato para instalações existentes que precisam de uma atualização para suportar os requisitos dessas novas cargas de trabalho.

Essa solução pode funcionar com ou sem o uso de água e é totalmente modular. Como tal, permite a integração perfeita nas infraestruturas de data center existentes. Ela acomoda racks de servidor padrão, facilitando a implementação em uma variedade de instalações, desde data centers Edge até data centers de hiperescala. O sistema é compatível com vários sistemas de rejeição de calor final, incluindo opções de refrigerante bombeado sem água.

A Chilldyne, por outro lado, criou uma solução direta no chip que elimina um dos principais riscos do resfriamento líquido - vazamentos. A solução, na foto, funciona criando um vácuo que aspira e circula o refrigerante para o sistema e através de placas frias montadas na CPU / GPU.

Chilldyne.width-358
– Chilldyne

Caso ocorra uma ruptura em um dos tubos que transportam o líquido, o vácuo garante que nenhum líquido seja derramado e o ar seja aspirado. O sistema também monitora continuamente as mudanças de pressão e alerta o proprietário/operador se algo der errado. Além disso, em certas configurações, o sistema pode isolar a seção afetada, minimizando o impacto em outros componentes. Depois de lançar isso, a Chilldyne voltou sua atenção para locais brownfield e, em julho de 2024, lançou um kit inicial de refrigeração líquida plug-and-play projetado para modernizar data centers e oferecer suporte a cargas de trabalho de IA. O kit inclui duas CDUs e placas frias classificadas para TDP de até 2.000 watts, suportando resfriamento de até 150 kW por rack.

Outros fornecedores estão apostando alto na nova onda de sites greenfield que estão online agora, com empresas como a Asperitas, a LiquidStack e a Submer protegendo suas apostas em um sabor diferente de refrigeração líquida - imersão.

Submer_rSZcdPm.width-358
Sistema de resfriamento por imersão da Submer – Submer

Esses sistemas são bifásicos ou monofásicos e giram em torno do conceito de imergir os servidores diretamente em uma banheira de fluido dielétrico e usar o alto potencial de transporte de calor desses fluidos para afastar o calor do equipamento de TI. Esses projetos oferecem uma eficiência de resfriamento extremamente alta, mas também apresentam desafios, principalmente em torno da integração em data centers refrigerados a ar já existentes.

Os sistemas de refrigeração líquida (de qualquer tipo) exigem um investimento inicial significativo em equipamentos, independentemente de serem implementados em locais brownfield ou greenfield. E embora o resfriamento líquido ofereça economia de energia a longo prazo, proprietários e operadores ainda estão em dúvida quando se trata da necessidade de resfriamento líquido em instalações menores e de baixa densidade.

A adoção do resfriamento líquido no espaço do data center é impulsionada pela própria carga de trabalho, portanto, é improvável que as instalações que não oferecem serviços de IA ou HPC vejam a necessidade de atualizar sua infraestrutura de resfriamento, pois o resfriamento a ar é mais do que suficiente para a maioria dos casos de uso.

A falta de padronização entre as peças que compõem a solução de refrigeração líquida é outro obstáculo à adoção - componentes como coletores, reservatórios e até mesmo a forma como a CDU está conectada variam de fornecedor para fornecedor. As pressões regulatórias, juntamente com a busca por uma indústria de data center sustentável, tornaram certas soluções menos desejáveis, embora tenham grande potencial de eficiência energética. Essas preocupações giram principalmente em torno do uso de água, impactos químicos, consumo de energia e gerenciamento de resíduos. Por exemplo, certos fluidos podem exigir processos especiais de manuseio e descarte devido às suas propriedades químicas.

O mercado de refrigeração líquida ainda tem espaço considerável para crescer e, à medida que a indústria trabalha para a padronização e os fornecedores continuam apresentando soluções que atendem à infinidade de riscos que essa tecnologia traz, a amplitude da adoção só aumentará. Afinal, as leis da física não mudaram e não mudarão tão cedo: de um modo geral, cada watt adicional de energia necessário para um chip significa um watt de calor por meio da transferência de energia que precisa ser removida.