Elena Digital López

Mejora la Comprensión de Videos con Amazon Bedrock: Automatización de Datos y Detección de Objetos Abiertos

En el ámbito del análisis de video e imagen, muchas empresas enfrentan el desafío de detectar objetos que no formaban parte del conjunto de entrenamiento de un modelo específico. Esto se vuelve especialmente complicado en entornos dinámicos donde suelen aparecer objetos nuevos, desconocidos o definidos por el usuario. Por ejemplo, los editores de medios pueden querer rastrear marcas o productos emergentes en contenido generado por usuarios; los anunciantes necesitan analizar las apariciones de productos en videos de influencers a pesar de las variaciones visuales; los proveedores minoristas buscan permitir búsquedas flexibles y descriptivas; los vehículos autónomos deben identificar escombros inesperados en la carretera; y los sistemas de manufactura necesitan reconocer defectos novedosos o sutiles sin haber sido etiquetados previamente.

En todos estos casos, los modelos tradicionales de detección de objetos de conjunto cerrado (CSOD), que solo reconocen una lista fija de categorías predefinidas, no son efectivos. Estos modelos tienden a mal clasificar los objetos desconocidos o a ignorarlos por completo, lo que limita su utilidad en aplicaciones del mundo real. La detección de objetos de conjunto abierto (OSOD) es un enfoque que permite a los modelos detectar tanto objetos conocidos como aquellos que no han sido vistos antes, incluidos aquellos no encontrados durante el entrenamiento. OSOD admite la entrada de indicaciones flexibles, que van desde nombres de objetos específicos hasta descripciones abiertas, y puede adaptarse a objetivos definidos por el usuario en tiempo real sin necesidad de reentrenamiento. Al combinar el reconocimiento visual con la comprensión semántica, a menudo a través de modelos de lenguaje visual, OSOD permite consultas amplias por parte del usuario, incluso si estos son desconocidos, ambiguos o completamente nuevos.

Amazon Bedrock Data Automation es un servicio cloud que extrae conocimientos de contenido no estructurado, como documentos, imágenes, vídeo y audio. En el caso del contenido de video, Bedrock Data Automation ofrece funcionalidades como la segmentación de capítulos, la detección de texto a nivel de fotograma, clasificación por niveles de capítulos según las taxonomías del Interactive Advertising Bureau (IAB), y detección de objetos a nivel de fotograma mediante OSOD.

Las plantillas de video de Amazon Bedrock Data Automation soportan OSOD a nivel de fotograma. Al introducir un video junto con un texto que especifica los objetos deseados a detectar, el modelo produce un diccionario que incluye las coordenadas (en formato XYWH) de los cuadros delimitadores, así como etiquetas y puntajes de confianza correspondientes. Los usuarios pueden personalizar aún más la salida según sus necesidades, por ejemplo, filtrando por detecciones de alta confianza cuando se prioriza la precisión.

Existen múltiples casos de uso para esta funcionalidad. Por ejemplo, los anunciantes pueden comparar la eficacia de varias estrategias de colocación de anuncios y realizar pruebas A/B para identificar el enfoque publicitario más óptimo. Adicionalmente, se puede utilizar OSOD para estrategias de redimensionamiento inteligentes, asegurando que se conserve información visual importante al detectar elementos clave en video. En sistemas de seguridad en el hogar, los productores pueden beneficiarse de las capacidades de comprensión y localización del modelo para mantener la seguridad. También es posible definir etiquetas personalizadas y realizar búsquedas a través de videos para recuperar resultados específicos. Con la detección flexible basada en texto, los editores pueden eliminar o reemplazar objetos con precisión, reduciendo la necesidad de máscaras dibujadas a mano que a menudo requieren varios intentos para obtener el resultado deseado.

La capacidad de OSOD dentro de Amazon Bedrock Data Automation mejora significativamente la habilidad para extraer conocimientos procesables del contenido de video. Al combinar consultas flexibles impulsadas por texto con localización de objetos a nivel de fotograma, OSOD permite a los usuarios en diversas industrias implementar flujos de trabajo de análisis de video inteligentes, que van desde la evaluación de anuncios específicos hasta la monitorización de seguridad y el seguimiento de objetos personalizados. Esta integración no solo optimiza la comprensión del contenido, sino que también reduce la necesidad de intervención manual y esquemas rígidos predefinidos, convirtiéndola en un activo poderoso para aplicaciones del mundo real.
vía: AWS machine learning blog

Scroll al inicio