Elena Digital López

Anuncio de la Nueva Experiencia de Creación de Clusters para Amazon SageMaker HyperPod

Amazon SageMaker HyperPod ha lanzado una nueva experiencia de creación de clústeres que permite configurar clústeres de entrenamiento e inferencia distribuidos con un solo clic, eliminando la posibilidad de errores comunes de configuración. El sistema incluye una orquestación por Slurm o Amazon Elastic Kubernetes Service (EKS), así como una red segura a través de Amazon Virtual Private Cloud (VPC) y almacenamiento de alto rendimiento.

Con SageMaker HyperPod, los usuarios podrán escalar de manera eficiente tareas como entrenamiento de inteligencia artificial generativa o afinación de modelos, utilizando clústeres que pueden contar con cientos o miles de aceleradores de IA. Además, el sistema monitoriza continuamente el hardware, solucionando problemas automáticamente para asegurar la recuperación de las cargas de trabajo sin intervención manual.

Anteriormente, los clientes debían configurar manualmente varios recursos de AWS, como un VPC y roles de IAM, creando puntos de fallo potenciales. Ahora, la creación de clústeres se simplifica al permitir la creación de los recursos necesarios en un solo paso, con valores predeterminados recomendados por el sistema.

Las nuevas opciones de despliegue en la consola de Amazon SageMaker AI incluyen una configuración rápida y una configuración personalizada. La primera utiliza valores predeterminados sensatos para grupos de instancias, redes, orquestación y permisos, mientras que la configuración personalizada permite un control más granular sobre los parámetros.

La rápida configuración automática también incluye la creación de un nuevo VPC, subredes y un nuevo clúster EKS con la última versión de Kubernetes, además de almacenar scripts de ciclo de vida en un nuevo bucket de S3. Por otro lado, la configuración personalizada brinda opciones para crear un VPC existente o un grupo de seguridad existente, además de instalar operadores específicos en el clúster de EKS.

Además, ambos modos permiten la adición de nuevos grupos de instancias, desde grupos estándar hasta grupos restringidos, permitiendo a los usuarios elegir entre capacidad bajo demanda o planes de entrenamiento flexibles. SageMaker HyperPod también ofrece herramientas de verificación de salud profunda y capacidad para personalizar scripts de ciclo de vida, lo que la convierte en una opción robusta para entrenar modelos de ML a gran escala.

La nueva experiencia de creación de clústeres de SageMaker HyperPod está diseñada para simplificar la creación de infraestructura resistente y eficaz, ofreciendo una implementación optimizada que puede integrarse en flujos de trabajo de entrega continua. Con esta actualización, Amazon busca facilitar la adopción de entornos de entrenamiento personalizados para satisfacer las diversas necesidades de los usuarios en el ámbito de la inteligencia artificial y machine learning.
vía: AWS machine learning blog

Scroll al inicio