Com a definição de que os gastos mundiais em sistemas de IA devem dobrar entre 2023 e 2026, parece óbvio que a capacidade do data center aumentaria rapidamente para atender à demanda.
Surpreendentemente, no entanto, o ano passado viu muitos operadores de data centers pisarem no freio em novos projetos e desacelerar o investimento, com a capacidade vaga caindo 6,3% em Londres durante 2022-23.
O que está por trás dessa tendência contraintuitiva? Para explicar isso, precisamos entender algumas questões sobre a computação de IA e da infraestrutura que a suporta.
Como a IA muda a infraestrutura do data center
Os data centers foram historicamente construídos em torno de racks alimentados por CPU para lidar com cargas de trabalho de computação tradicionais. No entanto, a computação de IA requer racks alimentados por GPU, que consomem mais energia, emitem mais calor e ocupam mais espaço do que uma capacidade de CPU equivalente.
Na prática, isso significa que a capacidade de computação de IA geralmente exigirá mais conexões de energia e sistemas de resfriamento alternativos.
Como essa é uma infraestrutura incorporada, ela é incorporada à estrutura de um complexo de data center – o que torna muitas vezes extremamente caro substituí-la, se não totalmente impossível economicamente.
Na prática, as operadoras devem se comprometer com uma “divisão” entre a quantidade de espaço para IA em seus novos data centers versus a computação tradicional.
Errar e se comprometer demais com a IA pode deixar os operadores de data centers sobrecarregados com capacidade permanentemente subutilizada e não lucrativa.
Esse problema é exacerbado pelo fato do mercado de IA estar em seu início, com a Gartner afirmando que atualmente está no pico de expectativas inflacionadas no ciclo de hype. Como resultado, muitas operadoras estão optando por se segurar na fase de design em vez de se comprometer prematuramente com a proporção de computação de IA em seus novos projetos de data center.
Adotando uma abordagem holística na fase de projeto
Os operadores estão conscientes, no entanto, de que eles têm somente um certo tempo para correr o risco de adiar o investimento antes de perderem fatia do mercado e vantagem competitiva. Mas, uma vez que muitos dos fundamentos da infraestrutura de data center estão mudando em tempo real, essa é uma tarefa difícil.
Para equilibrar a necessidade de serem pioneiros e, ao mesmo tempo, compensar os riscos, os operadores precisam projetar seus data centers para serem eficientes ao máximo e resilientes na era da computação de IA. Isso requer uma abordagem totalmente nova e holística ao design.
- Envolva mais partes interessadas
Independentemente da divisão exata entre IA e computação tradicional decidida por um operador, os locais de data center com capacidade de computação de IA prometem ser significativamente mais complexos do que as instalações tradicionais. Mais complexidade geralmente significa mais falhas, especialmente porque a computação de IA tem significativamente mais demandas do que a computação tradicional.
Como resultado, para garantir o tempo de atividade e reduzir o risco de problemas dispendiosos durante a vida útil de um local, as equipes precisam ser mais minuciosas durante as etapas de planejamento dos data centers.
A fase de concepção, particularmente, deve ter a contribuição de um leque maior de pessoal e conhecimentos especializados no início dos projetos. Além de buscar conhecimento em energia e refrigeração, os projetistas devem envolver as equipes de operações, cabeamento e segurança desde o início para entender possíveis gargalos e possíveis falhas
2. Construa IA nas operações do data center
Como as operadoras agora têm computação de IA no local, elas devem usar sua capacidade para alavancar a IA para obter novas eficiências em suas operações. A adoção da IA no data center vem de longa data, com a tecnologia capaz de realizar fluxos de trabalho com grande precisão e qualidade. Por exemplo, a IA pode ajudar com:
- Monitoramento de temperatura e umidade
- Operações do sistema de segurança
- Monitoramento e alocação de uso de energia
- Detecção de falhas de hardware e manutenção preventiva
Ao usar a tecnologia de forma proativa em todos os estágios do ciclo de vida do data center, os operadores podem melhorar drasticamente a eficiência e a solidez de suas operações. A IA é ideal para ajudar a enfrentar novos desafios na adoção de layouts novos e complexos dos data centers de próxima geração, como detectar falhas e realizar manutenção preditiva.
3. Evite falsas economias
A IA coloca uma carga maior nos data centers durante os horários de pico, como durante as execuções de treinamento e execução de modelos de nível empresarial em produção. Durante esses períodos, a computação de IA geralmente excederá significativamente as expectativas tradicionais de consumo de energia, demanda de resfriamento e taxa de transferência de dados.
No nível mais básico, isso significa maior pressão sobre os materiais subjacentes em um data center. Se esses materiais e componentes subjacentes não forem de alta qualidade, isso significa que eles estarão mais propensos a falhas. Como a computação de IA significa um aumento dramático no número de componentes e conexões em um local, isso significa que materiais mais baratos e de menor qualidade que teriam funcionado bem em sites tradicionais podem paralisar os data centers que executam computação de IA.
Para isso, as operadoras devem evitar economizar dinheiro comprando materiais de qualidade inferior, como cabos abaixo do padrão. Isso causa uma falsa economia, já que esses materiais são mais vulneráveis a falhas e precisam de substituições mais frequentes. O mais problemático, entretanto, é que a falha de materiais e componentes abaixo do padrão geralmente resulta em tempos de inatividade e lentidão nos locais e afeta sua lucratividade.
Abordando o enigma da infraestrutura
Embora os requisitos de infraestrutura da computação de IA possam ser a principal razão pela qual as operadoras estão procrastinando o investimento, a longo prazo não será esse o caso.
À medida que a incerteza do mercado aumenta, as empresas convergirão para suas “Zonas de Conforto” em relação à divisão entre computação tradicional e IA em seus data centers.
Com isso, as empresas precisarão garantir que tenham todas as vantagens possíveis nas operações de seu site à medida que aprendem e amadurecem.
Isso significa projetar de forma holística desde o início, aproveitar a própria IA para descobrir novas eficiências em seus sites e investir em materiais de qualidade que possam suportar as maiores demandas da computação de IA.
Mais sobre Canal Gestão & Operação
-
-
-
Episode O impacto da IA nos data centers