Amazon ha presentado Nova Sonic, un modelo de base destinado a generar conversaciones de voz a voz que se asemejan al habla humana, lo que permite a los usuarios interactuar con inteligencia artificial en tiempo real. Este sistema es capaz de comprender el tono de la conversación y asegura que la comunicación fluya de manera natural, además de realizar diversas acciones.
La arquitectura multicliente de Nova Sonic se destaca por su diseño modular, robusto y escalable, lo que la hace adecuada para asistir en aplicaciones de voz de alto rendimiento. Los agentes de voz de Nova Sonic se integran con el marco de sub-agentes de Strands, aprovechando a su vez Amazon Bedrock AgentCore para crear un sistema multicliente efectivo.
La idea detrás de la arquitectura multicliente es comparable a la estructura de un equipo en las empresas, donde cada miembro se especializa en tareas concretas. Esta división permite gestionar tareas complejas de manera más eficiente y menos propensa a errores, ya que cada agente se convierte en un experto en determinadas áreas, como la verificación de datos o la atención al cliente. Para el usuario, la experiencia sigue siendo fluida, sin interrupciones ni cambios perceptibles en la voz.
El sistema es especialmente útil en aplicaciones como asistentes financieros, donde un agente puede encargarse de toda la experiencia del usuario, desde la verificación de la identidad hasta la resolución de consultas relacionadas con cuentas bancarias. Esta modularidad no solo facilita el mantenimiento del sistema, sino que también permite la reutilización de flujos de trabajo ya desarrollados para aplicaciones basadas en modelos de lenguaje de gran escala.
Un ejemplo de implementación es un asistente de voz para el sector bancario, que se encarga de gestionar la autenticación, consultas sobre saldos de cuentas y otros servicios relacionados con préstamos. Este asistente utiliza sub-agentes especializados que se ocupan de la lógica necesaria, como la validación de información. Esto simplifica la lógica en el agente principal y mantiene la lógica de negocio encapsulada, facilitando su mantenimiento.
La integración de Nova Sonic con AgentCore se realiza a través de eventos de uso de herramientas. Durante el ciclo de vida del evento de Nova Sonic, se pueden establecer configuraciones para invocar sub-agentes en función de la consulta realizada por el usuario. Este diseño permite al asistente de voz manejar requerimientos específicos de manera eficiente, delegando consultas complejas a los sub-agentes apropiados que ofrecen respuestas detalladas y precisas.
Por último, para garantizar un rendimiento óptimo, es crucial encontrar un equilibrio entre la flexibilidad y el tiempo de respuesta. La elección de modelos más pequeños para sub-agentes puede reducir la latencia y mejorar la fluidez de la interacción, mientras que los modelos más grandes pueden reservarse para tareas que requieran un entendimiento más profundo del lenguaje. Esta estrategia no solo mejora la experiencia del usuario, sino que también hace posible una implementación más eficaz de las aplicaciones de inteligencia artificial.
vía: AWS machine learning blog