Amazon ha lanzado recientemente su nuevo sistema SageMaker HyperPod, que permite a las organizaciones aprovechar el poder de las NVIDIA Blackwell GPUs en un solo sistema. Este avance promete definir la próxima ola de innovación en inteligencia artificial, ofreciendo un rendimiento impresionante de 360 petaflops en cálculo de punto flotante denso (FP8) y 1.4 exaflops en cálculo de punto flotante disperso (FP4).
Los nuevos P6e-GB200 UltraServers, potenciados por la arquitectura NVIDIA GB200 NVL72, son capaces de proporcionar un rendimiento líder en la industria para el desarrollo y la implementación de modelos de inteligencia artificial de mil billones de parámetros a gran escala. Integrando de manera fluida estos servidores Ultra con el entorno de entrenamiento distribuido de SageMaker HyperPod, las organizaciones pueden escalar rápidamente el desarrollo de modelos, reducir el tiempo de inactividad y simplificar la transición desde el entrenamiento hasta el despliegue a gran escala.
Los P6e-GB200 UltraServers conectan 36 CPUs NVIDIA Grace con 72 GPUs Blackwell en un único dominio NVLink, garantizando así un acceso sin precedentes a recursos de computación. Su arquitectura permite a los usuarios acceder a hasta 72 GPUs Blackwell en un solo dominio NVLink, mejorando significativamente el rendimiento y la eficiencia en la formación de modelos de inteligencia artificial.
La solución también destaca por su capacidad de red de alto rendimiento, proporcionando hasta 130 TBps de ancho de banda NVLink de baja latencia entre las GPUs, lo que mejora la comunicación en cargas de trabajo de inteligencia artificial a gran escala. Adicionalmente, los UltraServers soportan hasta 405 TB de almacenamiento NVMe SSD local, optimizando el proceso de entrenamiento de modelos al permitir un rápido almacenamiento y acceso a datos.
La utilización de SageMaker HyperPod junto con los P6e-GB200 UltraServers representa un paso crucial hacia un entrenamiento y despliegue más rápidos y eficientes para los modelos de inteligencia artificial generativos más avanzados. Este avance resulta especialmente beneficioso para organizaciones que requieren gestionar múltiples equipos y proyectos, asegurando la máxima utilización de infraestructura y reduciendo costos operativos.
Los interesados pueden adquirir capacidades de UltraServer a través de planes de entrenamiento flexibles, disponibles en la zona local de AWS en Dallas, facilitando el acceso a las potentes herramientas que Amazon ofrece para facilitar el desarrollo de inteligencia artificial en diversos sectores. Las organizaciones pueden registrarse en la consola de SageMaker para comenzar a usar esta nueva tecnología y maximizar sus esfuerzos en inteligencia artificial.
vía: AWS machine learning blog