No ano em que Elon Musk construiu um cluster de computação de supercomputação com 100.000 GPUs em tempo recorde e já anunciou planos para dobrar sua capacidade de computação, provavelmente não há melhor momento para participar de um evento de supercomputação de vários dias.

O tema da edição de 2024 da conferência anual de supercomputação com sede nos EUA foi 'HPC Creates'. Durante sua palestra na manhã de terça-feira, o presidente do SC24, Philip C. Roth, disse que escolheu esse tema porque reflete "todas as maneiras pelas quais vejo a comunidade SC sendo criativa no que fazemos, no trabalho que fazemos e na tecnologia que produzimos, e como a apresentamos aos participantes da conferência, nas maneiras como colaboramos em nosso trabalho".

Ao longo da conferência de cinco dias, tive a sorte de conversar com uma variedade de pessoas de todo o mundo da supercomputação, sejam eles fornecedores, fundadores, universidades, laboratórios nacionais, centros de pesquisa, estudantes e simplesmente entusiastas de HPC.

Aqui estão algumas conclusões da minha viagem a Atlanta para o SC24.

1731966726569.width-358
SC24 em Atlanta, Geórgia – Charlotte Trueman

A refrigeração líquida é rei

Antes mesmo de entrar no Georgia World Congress Center, você provavelmente já teria passado por um ônibus ou táxi anunciando uma oferta de refrigeração líquida, um sentimento que o seguiu até o saguão e depois desceu quatro níveis e entrou no chão do salão de exposições.

"Venha conferir nossa solução de refrigeração líquida!" os fornecedores gritam, enquanto 17.000 pessoas passam por gabinetes de servidores exibindo diferentes ofertas - embora você deva se sentir mal pela única empresa cuja tela de rack refrigerada a líquido sofreu uma rachadura gigante em sua frente de vidro.

Há uma razão pela qual todos estão tão interessados em falar sobre refrigeração líquida; sem ela, a indústria não seria capaz de sustentar e aumentar as cargas de trabalho de IA em seu ritmo atual. No entanto, embora os fornecedores de todos os tipos estejam desesperados para mostrar suas ofertas, há algumas coisas que vale a pena ter em mente.

Com os chips agora começando a atingir 1.000 watts, o resfriamento líquido não é negociável. No entanto, o resfriamento monofásico não é uma bala de prata para chips com consumo de energia de mais de 1 kW, o que significa que não está claro por quanto tempo ele pode acompanhar o roteiro de produtos de alta velocidade da Nvidia e de outros fabricantes de chips. Além disso, o resfriamento por imersão bifásico, que pode ser usado para lidar com processadores com TDPs mais altos, não é isento de desafios, em termos de infraestrutura, custo e questões ambientais decorrentes dos caros líquidos dielétricos usados no resfriamento bifásico.

Uma coisa é certa: o resfriamento líquido é o rei do centro de conferências e é uma inevitabilidade contínua em um mundo de chips de 1kW. Mas, como os relatórios sobre os problemas de superaquecimento experimentados pela Nvidia NVL72, o resfriamento líquido monofásico pode atingir seu limite superior em breve, da mesma forma que o resfriamento a ar agora se tornou quase obsoleto para as cargas de trabalho cada vez mais densas que a indústria continua a perseguir?

A Quantum faz parte da conversa sobre HPC

De acordo com a IDC, espera-se que o mercado global de computação quântica cresça de 1,1 bilhão de dólares (6,8 bilhões de reais), em 2022 para 7,6 bilhões (47 bilhões de reais) em 2027. Pelo segundo ano consecutivo, o SC24 teve seu próprio Quantum Alley dedicado, onde havia mais de um refrigerador de diluição semelhante a um lustre em exibição.

Embora a computação quântica híbrida – a integração da computação clássica e quântica – não seja um conceito novo, no SC24, as conversas sobre como dar o próximo passo e tornar essas integrações uma realidade pareciam estar na mente de muitos já envolvidos no setor.

Isso ocorre porque, em parte, reunir computadores quânticos com a infraestrutura de computação clássica existente não é isento de desafios. Como explicou um fornecedor de computação quântica, a computação quântica não funcionará isoladamente e exigirá uma integração significativa com Data Centers que tenham os recursos necessários para suportar a tecnologia.

Para combater isso, ele disse que sua empresa estava gastando muito tempo com fornecedores de Data Center, descobrindo o que eles estão pensando sobre o quantum e tentando ajudar a prepará-los para seu uso futuro.

Do lado do cliente, como talvez seja de se esperar com uma tecnologia que ainda é um tanto teórica, ainda há alguma incerteza em torno da adoção de tecnologias quânticas. Com o ritmo da mudança sendo tão rápido com a infraestrutura de computação clássica no momento, as conversas indicam que os clientes estão preocupados com o fato de o mesmo acontecer com a tecnologia quântica e estão apreensivos em implementar algo apenas para ver os rápidos avanços tecnológicos ocorrerem e deixá-los com o pé atrás mais uma vez.

Também parece haver uma incerteza contínua em torno da necessidade de tecnologias quânticas fora dos centros de computação, universidades e instituições de pesquisa, com fornecedores quânticos dizendo que as empresas não têm certeza de que têm casos de uso que seriam melhor abordados pela computação quântica.

No entanto, apesar dos desafios, também foram interessantes as conversas com fornecedores tradicionais de computação que, pelo menos no momento, não planejam entrar no mercado quântico, mas criaram equipes de pesquisa dedicadas para avaliar a tecnologia e considerar como ela pode ser integrada à infraestrutura de computação da própria empresa no futuro.

O que há de novo no armazenamento?

Nem é preciso dizer que os avanços na computação dominaram as manchetes nos últimos anos e, embora clusters de 100.000 GPUs possam ser o que todos estão focados, a HPC não seria capaz de criar nada sem armazenamento e rede.

Como me foi apontado por um fornecedor (reconhecidamente disruptivo de armazenamento): "Quando você olha para todos esses diagramas de blocos de IA, você tem sorte se é que tem armazenamento mencionado".

Consequentemente, agora parece que o cenário de armazenamento pode estar maduro para alguma inovação, principalmente se a IA continuar em sua trajetória atual; consumindo e criando grandes quantidades de dados, todos os quais precisam ser armazenados em algum lugar. Processar seus dados com um cluster de GPU agressivamente grande é uma coisa, mas não vamos esquecer que eles precisam vir de algum lugar e ir para algum lugar, caso contrário, os conjuntos de treinamento ou os insights gerados pelo treinamento podem ser perdidos.

Algumas estimativas afirmam que, no ritmo atual, a quantidade de dados gerados terá um aumento de 1.000 vezes nos próximos 30 anos. No entanto, o desafio para os fornecedores estabelecidos de hoje será: como você aumenta as ofertas atuais o suficiente para acompanhar a demanda?

Os fornecedores que não são de armazenamento também reconheceram que definitivamente há valor a ser agregado quando se trata da camada de armazenamento da pilha de Data Center, com um executivo de um fornecedor de hardware HPC brincando que agora provavelmente seria um bom momento para comprar ações de uma empresa de armazenamento bem-sucedida, pois ele presumiu que uma aquisição provavelmente seria um resultado provável para uma em um futuro próximo. (N.B., DCD não é um consultor financeiro e você não deve considerar isso como aconselhamento financeiro.)

O que vem a seguir?

Considerando a rapidez com que o ritmo das mudanças tem sido nos últimos anos, muitas pessoas com quem conversei acharam difícil ter muita certeza real sobre o que os próximos 12 meses podem trazer.

Como a morte e os impostos, algumas coisas são inevitáveis, ou seja, a Nvidia e a AMD avançando com seus ciclos anuais de lançamento de produtos.

Além disso, à medida que empresas de todos os tamanhos anunciam publicamente um afastamento do treinamento para se concentrar na inferência menos intensiva computacionalmente, poderíamos em breve ver dezenas de milhões de H100s sentados em um canto acumulando poeira?

Além disso, dados os problemas da rede de suprimentos, custos de hardware, preocupações com superaquecimento e mudanças de prioridades, é provável que possamos ver algumas empresas que ainda não investiram em sua infraestrutura de computação sendo mais intencionais sobre o que compram, em vez de optar pela opção mais chamativa.

Na frente de resfriamento, as empresas de refrigeração líquida continuam otimistas de que as cargas de trabalho de IA cada vez mais densas continuarão a ver seus negócios subirem, mas, assim como a refrigeração a ar antes dela, a refrigeração líquida monofásica pode um dia atingir seu próprio teto?

As empresas de resfriamento por imersão em duas fases podem sentir que podem dormir um pouco mais tranquilas, mas os desafios e custos associados à adaptação da tecnologia à infraestrutura legada provavelmente manterão os fornecedores de Data Center acordados à noite.

Ainda não se sabe se 2025 se tornará o ano em que o armazenamento terá seu momento. Mas, aconteça o que acontecer, é provável que os Data Centers de IA continuem a enfrentar uma série de desafios, como superaquecimento, consumo de energia e somas impressionantes gastas na construção de clusters de supercomputação ainda maiores do que os que já vimos.

Um brinde ao SC25!