Por trás do boom da inteligência artificial dos últimos anos está uma batalha sob o radar, os data centers correndo para acompanhar o consumo de energia sem precedentes.
A questão é clara, as GPUs que alimentam os avanços da IA requerem grandes quantidades de energia e produzem calor significativo.
Veja o GB200 NVL72 da Nvidia, que contém 72 GPUs GB200 e 36 CPUs Grace, mas foi forçado a passar por um redesenho do rack após alegações de superaquecimento na configuração original.
Ao mesmo tempo, o consumo global de energia pelos data centers continua a subir, respondendo por 1,5% do uso total de eletricidade em todo o mundo. Até 2030, projeta-se que os data centers dos EUA consumirão cerca de oito por cento da energia total do país e exigirão até 50 bilhões de dólares (292 bilhões de reais) em investimentos em serviços públicos.
Essa demanda crescente levanta uma questão importante: nossa infraestrutura e recursos podem acompanhar? Empresas como a Microsoft estão explorando alternativas ousadas, como alavancar reatores nucleares. Ainda assim, apesar de muitas abordagens inovadoras, a rede elétrica está lutando para atender à demanda cada vez maior por data centers, e projetos ambiciosos estão enfrentando longos atrasos e excessos de alto custo.
Desafios enfrentados pelos data centers orientados por IA
À medida que as cargas de trabalho de IA crescem, também aumentam os desafios enfrentados pelos data centers. As demandas de energia estão aumentando e a competição por componentes críticos, como GPUs de alto desempenho, está se intensificando, tornando as redes de suprimentos arriscadas. A escassez de terras, particularmente em regiões com acesso limitado à energia e espaço para infraestrutura, complica ainda mais os esforços.
Simultaneamente, a natureza cíclica do treinamento de IA oscila entre tarefas de computação e uso intensivo de memória para gerar tensões térmicas flutuantes que os métodos tradicionais de resfriamento não podem mais gerenciar. Como resultado, soluções de ponta, como refrigeração líquida e materiais de interface térmica (TIMs) inovadores, usados para manter todas as soluções de refrigeração em contato funcional, não são mais uma opção. Eles são essenciais.
As empresas enfrentam a difícil tarefa de implementar rapidamente novas tecnologias de resfriamento em escala enquanto gerenciam os custos operacionais. No entanto, essas atualizações podem ter um impacto ambiental, com sistemas de resfriamento consumindo milhões de galões de água diariamente, um problema tornado mais urgente pela escassez global de água.
Para enfrentar esses desafios interconectados, os data centers devem equilibrar escalabilidade com sustentabilidade, garantindo desempenho confiável para engenheiros e empresas entregues dentro do orçamento e do prazo, reduzindo sua pegada ambiental.
Soluções inovadoras de refrigeração
A adoção de soluções de resfriamento inovadoras e escaláveis que se integram perfeitamente aos data centers é a chave para superar esses desafios.
As interfaces térmicas tradicionais totalmente líquidas continuam sendo um obstáculo, pois muitas vezes não conseguem fornecer a confiabilidade e o desempenho necessários. Em resposta, soluções emergentes, como sistemas de refrigeração líquida de circuito fechado, estão ganhando força, prometendo reduzir o consumo de água e aumentar a margem térmica para que o resfriamento do sistema supere o aumento das temperaturas da interface devido a chips grandes e curvos.
Como alternativa, empresas como a Meta alcançaram uma eficácia de uso de energia (PUE) em toda a frota de 1,10 em comparação com a média do setor de 1,58, usando técnicas avançadas de resfriamento, como aspiração de ar externo para regulação de temperatura, resfriamento evaporativo e sistemas de umidificação. No entanto, à medida que as densidades de potência do chip aumentam e os climas ideais para o resfriamento do ar externo se tornam menos acessíveis, manter esses níveis de eficiência representará desafios crescentes.
Sabemos que o resfriamento confiável de alto desempenho começa na interface, e os TIMs avançados estão substituindo as opções tradicionais para atender às demandas dos sistemas de resfriamento de última geração em escala hoje. Os TIMs à base de carbono, por exemplo, estão rapidamente ganhando popularidade por sua condutividade térmica e durabilidade superiores e capacidade de conectar coplacas planas a chips curvos e manter contato em toda a faixa operacional do dispositivo. Essas inovações garantem a continuidade operacional, melhoram a eficiência e reduzem o impacto ambiental.
Por que o resfriamento sustentável é importante
As soluções de resfriamento sustentáveis oferecem muitas vantagens, incluindo prolongar a vida útil do hardware, reduzir as despesas de manutenção e evitar a perda de receita devido ao tempo de inatividade prolongado. As GPUs, normalmente com uma vida útil de três a cinco anos sob cargas de trabalho pesadas, podem aumentar sua vida útil em mais de 60% com resfriamento adequado.
Além disso, como o calor é responsável por quase metade de todas as falhas, o resfriamento eficaz pode reduzir as necessidades de manutenção em até 50%. Os data centers contam com sistemas de resfriamento modulares e confiáveis para atingir um tempo de atividade quase perfeito (99,995% ou mais). Mesmo interrupções curtas podem resultar em perdas significativas em setores de alto risco, como finanças ou saúde.
Do ponto de vista ambiental, as tecnologias sustentáveis ajudam a reduzir as pegadas de carbono, minimizando o uso de energia para resfriamento. Os sistemas de reutilização de calor, que capturam e reaproveitam o calor residual dos data centers, como instalações que usam esse calor para aquecer edifícios próximos, aprimoram ainda mais os esforços de sustentabilidade. Essas iniciativas estão alinhadas com metas de sustentabilidade mais amplas, ajudando a reduzir as pegadas de carbono e contribuir para a conservação de energia.
As soluções de resfriamento sustentáveis estão transformando o futuro dos data centers, aprimorando a transferência de calor e suportando as tensões mecânicas dos chips modernos. Essas inovações garantem desempenho consistente, estendem a longevidade de componentes críticos e ajudam a evitar tempo de inatividade dispendioso ou perda de dados.
O futuro do resfriamento sustentável
A evolução das inovações de resfriamento veio com desafios inesperados. Ainda assim, as lições aprendidas no equilíbrio entre desempenho e sustentabilidade são inestimáveis para aqueles que navegam pelas mesmas demandas de alto risco da infraestrutura orientada por IA.
Nos próximos cinco a dez anos, as soluções de gerenciamento térmico usando materiais à base de carbono suportarão as crescentes densidades de energia das GPUs e manterão o desempenho, a condutividade térmica superior e a durabilidade.
No entanto, a fabricação desses materiais também deve ser sustentável e escalável para evitar os desafios da rede de suprimentos observados com o uso de grafite em baterias. Os data centers também devem se adaptar incorporando microrredes e fontes de energia renováveis localizadas, como energia nuclear, hídrica e solar. A transparência nas parcerias e o envolvimento das partes interessadas garantirão a escalabilidade e a sustentabilidade a longo prazo dessas soluções.
À medida que a IA continua a moldar o futuro, a indústria de data centers deve enfrentar o desafio de equilibrar as demandas térmicas e de energia, tudo sem comprometer seus resultados financeiros ou os recursos do planeta. A jornada em direção a um futuro mais verde e eficiente está apenas começando, e as decisões tomadas hoje definirão a infraestrutura de amanhã.
Mais sobre Canal Power & Cooling
-
-
Patrocinado Mais e mais dados... E a energia?
-