Por Clayton Wagar, ingeniero consultor principal de IA y HPC en Nokia
La inteligencia artificial (IA) no solo domina los titulares de las noticias tecnológicas, sino que también está cambiando la forma en que trabajan las organizaciones. En todos los sectores, las empresas están recurriendo a la IA para optimizar sus operaciones, generar nuevos ingresos y ofrecer experiencias de cliente más atractivas.
Sin embargo, las organizaciones deben superar algunos desafíos para aprovechar los beneficios de la IA. Uno de los mayores es garantizar que sus centros de datos puedan manejar los flujos masivos de datos y los requisitos de procesamiento de la IA. También deben adaptarse a sus patrones de tráfico únicos y al uso de acceso directo a memoria remota (RDMA). En otras palabras, las organizaciones deben optimizar la red del centro de datos para las cargas de trabajo de la IA.
Las cargas de trabajo de IA traen consigo nuevos desafíos
La mayoría de las organizaciones no tienen una idea clara de qué papel desempeñará la IA en sus iniciativas de transformación digital actuales y futuras. Están avanzando porque reconocen que la IA puede ayudarlas a evaluar e interpretar datos, tomar decisiones más inteligentes y resolver problemas difíciles.
Por lo tanto, no sorprende ver la rápida adopción de casos de uso de IA como el procesamiento del lenguaje natural (PLN), la predicción de resultados, la personalización y el análisis visual.
Estos casos de uso tienen diversas aplicaciones, pero presentan desafíos especiales y desafíos de red únicos.
Por ejemplo, generan cargas de trabajo que requieren un uso más intensivo de recursos informáticos que las asociadas con las aplicaciones tradicionales, utilizan volúmenes masivos de datos de muchas fuentes diferentes y requieren un procesamiento rápido y paralelo.
Del entrenamiento a la inferencia: comprender las cargas de trabajo de la IA
El mundo de la IA gira en torno a los modelos. Todas las cargas de trabajo de IA se clasifican en una de dos categorías principales (entrenamiento de IA o inferencia de IA) en función de las tareas que realizan con un modelo determinado.
El entrenamiento de IA se centra en la preparación de un modelo para un caso de uso específico. Incluye la recopilación de datos, la selección del modelo, el entrenamiento del modelo, la evaluación del modelo, la implementación del modelo y el monitoreo del modelo. Las cargas de trabajo para el entrenamiento de IA implican enormes flujos de datos y un gran procesamiento en grandes clústeres de unidades de procesamiento gráfico (GPU). Necesitan un gran ancho de banda y son muy sensibles a la pérdida de paquetes.
La inferencia de IA se centra en empaquetar el modelo entrenado y ofrecerlo a los usuarios. La inferencia analiza y procesa la información de los usuarios y la introduce en el modelo, que luego ofrece un resultado relevante. Los flujos de datos son mucho más pequeños que los del entrenamiento de IA, pero el resultado puede provenir de muchas GPU diferentes que funcionan en paralelo, por lo que la baja latencia es imprescindible.
Evolución de las redes front-end y back-end para cargas de trabajo de IA
Las organizaciones necesitan redes de centros de datos optimizadas para satisfacer los requisitos especiales de las cargas de trabajo de IA. Estas redes deben proporcionar una conectividad fluida y ultraconfiable a cada parte de la infraestructura de IA. Es posible que requieran software especializado y almacenamiento a gran escala para garantizar tiempos de finalización de trabajos rápidos (JCT).
Para las cargas de trabajo de entrenamiento de IA, la solución ideal es una red de back-end sin pérdidas que combine alta capacidad y velocidad con baja latencia. Para las cargas de trabajo de inferencia de IA, el mejor enfoque es una red de front-end que pueda ofrecer tiempos de respuesta rápidos a los usuarios desde el borde de la red.
Las organizaciones pueden implementar redes back-end y front-end por separado o convergerlas para abordar requisitos específicos de clientes, costos y uso de energía.
También pueden distribuir infraestructura front-end y back-end en múltiples ubicaciones para respaldar casos de uso prometedores como GPU como servicio (GPUaaS), ofrecido por proveedores de la nube, y capacitación e inferencia en tiempo real implementadas por empresas en el borde de la red.
Estas implementaciones distribuidas requieren soluciones de interconectividad de centros de datos excepcionalmente confiables y de alto rendimiento.
Por qué Ethernet es adecuado para las cargas de trabajo de IA
InfiniBand ha sido una opción tecnológica popular para las redes de IA porque admite RDMA y permite interconexiones confiables y de alta capacidad. Las organizaciones ahora están recurriendo a tecnologías Ethernet para construir redes de back-end para cargas de trabajo de IA. Ethernet ya domina los diseños de redes front-end.
El Consorcio Ultra Ethernet (UEC) está facilitando el cambio con mejoras que consolidan el estatus de Ethernet como la tecnología ideal para las infraestructuras de red de IA.
Por ejemplo, los miembros de la UEC, entre ellos Nokia, están desarrollando una arquitectura de comunicaciones completa, abierta, interoperable y de alto rendimiento que pueda satisfacer las demandas de redes de las cargas de trabajo de IA y HPC a escala. Su objetivo es optimizar estas cargas de trabajo modernizando la operación RDMA sobre Ethernet. El protocolo Ultra Ethernet Transport (UET) logrará este objetivo con innovaciones que permiten una mayor utilización de la red y una menor "latencia de cola" para reducir los JCT.
Elementos esenciales para estructuras de centros de datos preparadas para IA
¿Qué se necesita para adoptar las estructuras Ethernet y hacer evolucionar las redes front-end y back-end para manejar los rigores de las cargas de trabajo de inferencia y entrenamiento de IA? Siga leyendo para descubrir los componentes básicos clave para una red de centros de datos preparada para IA.
Hardware flexible
Las organizaciones necesitan opciones de hardware flexibles en múltiples formatos para implementar estructuras leaf-spine de alto rendimiento. Estas plataformas de conmutación de centros de datos Ethernet deberían facilitar la creación de redes back-end sin pérdidas que puedan ofrecer alta capacidad y latencia de cargas de trabajo de entrenamiento de IA. También deberían admitir diseños front-end que puedan interconectar cargas de trabajo de inferencia de IA y de cómputo que no sean de IA y almacenamiento compartido con baja latencia.
Un sistema operativo moderno y de red abierta
Las plataformas de conmutación de centros de datos necesitan un sistema operativo de red (NOS) que esté preparado para las necesidades actuales y futuras. Un NOS ideal garantizará la confiabilidad y la calidad, admitirá la apertura y la automatización a escala y facilitará la personalización con interfaces modernas.
Debe proporcionar capacidades que permitan a las organizaciones soportar redes Ethernet sin pérdidas y satisfacer las demandas de escalabilidad y rendimiento de cualquier carga de trabajo de IA.
Herramientas de automatización flexibles
Las organizaciones necesitan automatizar las operaciones de la estructura de su centro de datos para manejar cargas de trabajo de IA más grandes y desafiantes. Las mejores soluciones simplificarán la compatibilidad con la automatización basada en intenciones y la extenderán a cada fase del ciclo de vida de la estructura: diseño, implementación y operaciones diarias.
Interconectividad de centros de datos
La implementación de infraestructuras de IA distribuidas permitirá a las organizaciones respaldar cargas de trabajo de inferencia y entrenamiento de IA en el borde de la red, cerca de los usuarios. Para aprovechar al máximo estas aplicaciones, necesitan soluciones que puedan respaldar una interconectividad confiable y de alto rendimiento en todos los dominios de la red de IA.
Lea nuestra nota de aplicación y visite nuestro sitio web para obtener más información sobre cómo la solución Nokia Data Center Fabric proporciona todos los componentes básicos que necesita para optimizar la red para las cargas de trabajo de IA actuales y futuras.