Elena Digital López

Entrenamiento Sin Puntos de Control en Amazon SageMaker HyperPod: Capacitación a Escala de Producción con Recuperación de Fallos Más Rápida

En un contexto donde el entrenamiento de modelos de inteligencia artificial se ha vuelto cada vez más complejo y costoso, la compañía Amazon ha presentado un avance significativo en su solución de entrenamiento: el sistema de entrenamiento sin puntos de control en Amazon SageMaker HyperPod. Esta innovación surge como respuesta a las ineficiencias que los métodos tradicionales de recuperación basados en puntos de control han generado en la formación de modelos que superan los billones de parámetros. Tal crecimiento en los modelos y la expansión de clústeres de entrenamiento a miles de aceleradores de inteligencia artificial han evidenciado que incluso pequeñas interrupciones pueden conllevar costos y retrasos significativos.

El enfoque de entrenamiento sin puntos de control introducido por Amazon promete transformar la manera en que se gestionan los fallos durante el proceso de entrenamiento. Esta metodología permite una recuperación de estado entre pares, lo que reduce drásticamente el tiempo de recuperación, con estudios de validación en producción que muestran una disminución de hasta el 93% en el tiempo de recuperación, llevándolo de intervalos de 15 a 30 minutos a menos de 2 minutos. Este avance no solo incrementa la eficiencia, sino que también permite alcanzar un 95% de producción efectiva en clústeres que utilizan miles de aceleradores de inteligencia artificial.

El concepto de «goodput» se ha vuelto fundamental en este contexto; se refiere al trabajo útil realizado en un sistema de entrenamiento de inteligencia artificial en comparación con su capacidad teórica máxima. En situaciones de entrenamiento de modelos de base, las caídas del sistema y los sobrecostos en recuperación impactan negativamente en el «goodput». El aumento de la frecuencia de fallos y los largos tiempos de recuperación, especialmente con modelos más grandes, agravan esta problemática y pueden traducirse en millones de dólares en pérdidas anuales.

El enfoque tradicional de recuperación, donde se guardan estados de entrenamiento de forma periódica a través de puntos de control, requiere que cuando ocurre un fallo, se reinicie el trabajo desde el último punto guardado. Sin embargo, este proceso puede resultar sumamente complejo y prolongado, ya que cada error en un GPU o un fallo de hardware puede desencadenar el cierre del clúster completo de entrenamiento, lo que lleva a largos episodios de inactividad mientras se reinicia el sistema.

Por el contrario, el entrenamiento sin puntos de control permite que en caso de fallas, el sistema recupere rápidamente el estado utilizando pares sanos, evitando así la necesidad de operaciones de lectura/escritura en almacenamiento y reinicios completos de los procesos implicados. En este sistema, los componentes que se han desarrollado trabajan en conjunto para formar una recuperación automática y rápida de errores, sin intervención manual.

El éxito de este enfoque ha sido validado en múltiples configuraciones de clúster, con resultados que muestran mejoras extraordinarias en tiempos de recuperación y una notable reducción de tiempos de inactividad, lo que se traduce en una mejora directa en el «goodput». Amazon ha demostrado que con esta innovación se puede alcanzar más del 95% de «goodput» incluso en clústeres formados por miles de aceleradores de inteligencia artificial, lo que representa una mejora significativa en la eficiencia del proceso de entrenamiento.

A medida que la industria de la inteligencia artificial continúa evolucionando, estas nuevas herramientas y enfoques marcan un paso importante hacia la optimización de los procesos de producción y la reducción de costos, haciendo que el entrenamiento de modelos sea más eficiente y menos susceptible a interrupciones significativas.
vía: AWS machine learning blog

Scroll al inicio