Amazon ha anunciado la disponibilidad de un nuevo sistema de enrutamiento de sesiones persistentes en Amazon SageMaker Inference. Esta funcionalidad promete mejorar el rendimiento y la experiencia del usuario en aplicaciones de inteligencia artificial generativa al aprovechar la información previamente procesada. Este avance en SageMaker facilita la implementación y el despliegue de modelos de aprendizaje automático, incluyendo modelos base, ofreciendo la mejor relación calidad-precio para cualquier caso de uso.
Gracias a la nueva característica de enrutamiento de sesiones persistentes, todas las solicitudes de una misma sesión se redirigen a la misma instancia. Esto permite que las aplicaciones reutilicen la información procesada previamente, reduciendo así la latencia y mejorando la experiencia del usuario. Esta innovación es especialmente útil cuando se manejan grandes cargas de datos o se requiere una experiencia interactiva fluida. Al utilizar las solicitudes de inferencia previas, los desarrolladores pueden aprovechar esta característica para crear aplicaciones de inteligencia artificial conscientes del estado en SageMaker. Para utilizar esta función, se crea un ID de sesión con la primera solicitud y se utiliza ese ID para indicar que SageMaker debe redirigir todas las solicitudes subsecuentes a la misma instancia. Las sesiones también pueden eliminarse cuando se finalizan, liberando recursos para nuevas sesiones.
Esta funcionalidad está disponible en todas las regiones de AWS donde SageMaker está habilitado. SageMaker simplifica el despliegue de modelos, permitiendo que chatbots y otras aplicaciones usen sus capacidades multimodales con eficiencia. SageMaker ha implementado una solución robusta que combina sinergias de enrutamiento de sesiones persistentes con balanceo de carga, y sesiones conscientes del estado en TorchServe. El enrutamiento de sesiones persistentes garantiza que todas las solicitudes de una sesión de usuario sean atendidas por la misma instancia de servidor de SageMaker. Las sesiones conscientes del estado en TorchServe almacenan en caché los datos multimedia en la memoria GPU desde la petición de inicio de la sesión, minimizando la carga y descarga de estos datos para mejorar los tiempos de respuesta.
Esta estrategia centrada en minimizar la sobrecarga de transferencia de datos y mejorar los tiempos de respuesta asegura que el archivo multimedia inicial se cargue y procese solo una vez, y las solicitudes subsecuentes dentro de la misma sesión pueden usar los datos en caché.
Entre los pasos principales para desplegar el modelo LLava, se incluyen la construcción de un contenedor Docker de TorchServe y su envío a Amazon ECR, la creación de artefactos de modelo TorchServe y su carga en Amazon S3, la creación del punto final de SageMaker y la ejecución de inferencias. Este proceso es esencial para garantizar que las aplicaciones multimodales, como los asistentes de lenguaje y visión, funcionen de manera eficiente y rápida.
Para aquellos interesados en implementar esta solución, se recomienda seguir una guía paso a paso que incluye la creación y eliminación de sesiones usando el comando invoke_endpoint, optimizando la integración de modelos personalizados y utilizando repositorios Git para gestionar el código del proyecto.
Los desarrolladores pueden beneficiarse del código fuente y los scripts proporcionados en el repositorio de GitHub. La implementación de estas capacidades abre vías para reducir significativamente la latencia y mejorar la experiencia del usuario final al servir modelos multimodales. Esta innovación de Amazon SageMaker invita a los desarrolladores y científicos de datos a probar esta solución y compartir sus experiencias y preguntas.
vía: AWS machine learning blog