Los escasos recursos laborales están limitando el crecimiento en sectores como la manufactura, la logística, la construcción y la agricultura, siendo la construcción el área más afectada. En Estados Unidos, cerca de 500,000 puestos de trabajo permanecen vacantes y el 40% de la mano de obra actual se aproxima a la jubilación en la próxima década. Estas limitaciones en la fuerza laboral han resultado en retrasos en proyectos, un aumento en los costos y la postergación de planes de desarrollo. Para mitigar estas dificultades, las organizaciones están desarrollando sistemas autónomos que pueden realizar tareas que llenan vacíos de capacidad, amplían las capacidades operativas y ofrecen la ventaja adicional de productividad ininterrumpida.
La creación de sistemas autónomos necesita grandes conjuntos de datos anotados para entrenar modelos de inteligencia artificial, y el costo elevado de la preparación de datos se ha convertido en un obstáculo. La etapa crítica de etiquetado de datos de video —que consiste en identificar información sobre el equipo, las tareas y el entorno— es esencial para asegurar que los datos sean útiles para el entrenamiento de modelos. Sin embargo, este paso puede ralentizar la implementación de modelos, atrasando así la entrega de productos y servicios impulsados por IA a los clientes. Para las empresas de construcción que manejan millones de horas de video, la preparación y la anotación manual de datos se vuelve poco práctica. Los modelos de lenguaje-visual (VLMs) ayudan a abordar esto al interpretar imágenes y videos, responder a consultas en lenguaje natural y generar descripciones a una velocidad y escala que los procesos manuales no pueden igualar, ofreciendo una alternativa rentable.
Un ejemplo de cómo se está afrontando este desafío es Bedrock Robotics, que se ha asociado con el AWS Generative AI Innovation Center para aplicar modelos de lenguaje-visual que analizan el metraje de video de construcción, extraen detalles operativos y generan conjuntos de datos de entrenamiento etiquetados a gran escala. Desde 2024, Bedrock Robotics ha estado desarrollando sistemas autónomos para el equipo de construcción. Su producto, Bedrock Operator, combina hardware con modelos de inteligencia artificial para permitir que excavadoras y otros maquinarias operen con mínima intervención humana. Estos sistemas pueden realizar tareas como cavar, nivelar y manipular materiales con precisión centimétrica.
Para entrenar estos modelos, se requiere una gran cantidad de metraje de video que capture el equipo, las tareas y el entorno circundante, lo que limita la escalabilidad. Los VLMs ofrecen una solución al analizar estos datos de imagen y video, generando descripciones textuales que son cruciales para la tarea de anotación. Bedrock Robotics utilizó esta tecnología para agilizar la preparación de datos para el entrenamiento de modelos de inteligencia artificial, habilitando operaciones autónomas para el equipo. A través de una selección adecuada de modelos y optimización de prompts, la compañía mejoró la identificación de herramientas de 34% a 70%, transformando un proceso manual y que consume tiempo en un flujo de trabajo automatizado y escalable.
Esta metodología presenta un marco replicable para organizaciones que enfrentan desafíos similares en la preparación de datos, mostrando cómo una inversión estratégica en modelos de base puede resultar en resultados operativos medibles y una ventaja competitiva. Los modelos de base son aquellos entrenados con grandes volúmenes de datos utilizando técnicas de aprendizaje auto-supervisado que aprenden representaciones generales adaptables a diversas tareas. Los VLMs utilizan estas técnicas de preentrenamiento a gran escala para conectar modalidades visuales y textuales, permitiéndoles comprender, analizar y generar contenido en ambos formatos.
En el futuro, se espera que la automatización ayude a abordar la escasez de mano de obra, permitiendo a las empresas acelerar la implementación de sistemas autónomos, reducir costos operativos y explorar nuevas áreas de crecimiento en industrias afectadas por la falta de personal. A medida que las organizaciones optimizan su preparación de datos, como lo ha hecho Bedrock Robotics, se abre una vía hacia la transformación de desafíos laborales en oportunidades de innovación y expansión.
vía: AWS machine learning blog

