Elena Digital López

Introducción de Escalado Automático en Amazon SageMaker HyperPod

Amazon ha anunciado la incorporación de una función muy esperada en su servicio SageMaker HyperPod: el escalado automático gestionado de nodos mediante Karpenter. Esta actualización permite a las empresas adaptar eficientemente sus clústeres de SageMaker HyperPod para satisfacer las demandas de inferencia y entrenamiento en tiempo real, especialmente en situaciones de tráfico impredecible.

La capacidad de escalado automático es crucial para cumplir con las garantías de nivel de servicio (SLA) en entornos de producción donde las demandas pueden aumentar significativamente. Esta solución gestionada por SageMaker simplifica el proceso operativo, eliminando la necesidad de que los usuarios se encarguen de la instalación y el mantenimiento de los controladores de Karpenter, lo que potencia la eficiencia y reduce costos.

SageMaker HyperPod ya está siendo utilizado por empresas como Perplexity, HippocraticAI, H.AI y Articul8. A medida que más organizaciones evolucionan de entrenar modelos fundamentales a ejecutar inferencias a gran escala, la necesidad de escalado automático de nodos GPU se vuelve esencial para manejar tráfico real de producción.

La integración de Karpenter —un popular gestor del ciclo de vida de nodos en Kubernetes— junto con SageMaker HyperPod proporciona una infraestructura resiliente y unifica las capacidades de gestión de nodos. Esto acarrea múltiples ventajas, incluyendo el aprovisionamiento justo a tiempo, la selección de nodos basada en la carga de trabajo, y la escala a cero, que optimiza el uso de recursos sin mantener infraestructura dedicada para los controladores.

Las nuevas funcionalidades permiten que los clústeres de SageMaker HyperPod se transformen en infraestructuras dinámicas y optimizadas por costos que se adaptan a la demanda, garantizando que las cargas de trabajo se manejen de manera eficaz. Además, el monitoreo constante del rendimiento asegura que los clústeres mantengan una utilización óptima de recursos, ajustando la capacidad automáticamente según sea necesario.

Con esta innovadora capacidad de escalado automático, SageMaker HyperPod se posiciona como una solución eficiente y alineada con las necesidades actuales del mercado para la gestión de cargas de trabajo de machine learning en entornos complejos y en constante cambio.
vía: AWS machine learning blog

Scroll al inicio