Elena Digital López

Entrenamiento de Llama 3.3 Swallow: Un LLM Soberano Japonés en Amazon SageMaker HyperPod

En un avance significativo en el ámbito de la inteligencia artificial, el Instituto de Ciencia de Tokio ha completado con éxito el desarrollo de Llama 3.3 Swallow, un modelo de lenguaje de 70 mil millones de parámetros con capacidades avanzadas para el procesamiento del idioma japonés. Esta iniciativa, liderada por Kazuki Fujii, se llevó a cabo utilizando Amazon SageMaker HyperPod, una infraestructura que ha permitido optimizar el rendimiento en tareas relacionadas con el japonés, superando a modelos reconocidos como GPT-4o-mini.

Llama 3.3 Swallow se fundamenta en la arquitectura de Meta Llama 3.3, pero incluye mejoras específicas para el procesamiento del idioma japonés. El modelo fue creado en colaboración entre el Laboratorio Okazaki y el Laboratorio Yokota del Instituto de Ciencia de Tokio, así como el Instituto Nacional de Ciencia Y Tecnología Industrial Avanzada (AIST). Actualmente, está disponible en dos variantes en la plataforma Hugging Face, facilitando su acceso a investigadores y desarrolladores interesados en aplicar sus capacidades.

El proceso de entrenamiento del modelo se llevó a cabo mediante una preformación continua, utilizando el conjunto de datos conocido como Swallow Corpus Version 2. Este corpus se extrajo de la web y se centró en contenido educativo en japonés, garantizando así un alto nivel de calidad en los datos de entrenamiento. Se emplearon 32 instancias EC2 de Amazon, compuestas por potentes GPUs, para llevar a cabo el entrenamiento continuo, que dure más de 16 días.

Los resultados obtenidos muestran que el modelo base supera a varias alternativas competitivas, destacando su eficacia en tareas lingüísticas en japonés. En particular, su variante ajustada para instrucciones ha demostrado rendimiento excepcional en el Japanese MT-Bench, un referente para evaluar aplicaciones prácticas en este idioma.

La disponibilidad del modelo en Hugging Face está sujeta al cumplimiento de las licencias de uso de Meta Llama 3.3 y Gemma, promoviendo así la innovación en aplicaciones de inteligencia artificial centradas en el japonés. La infraestructura de entrenamiento, diseñada con el fin de ser escalable y eficiente, combina componentes de cómputo, red, almacenamiento y monitoreo, facilitando un entrenamiento más rápido y con menos interrupciones.

Además, se ha implementado un enfoque sistemático para la optimización de recursos, junto a un sistema de monitoreo integral que permite la detección en tiempo real de problemas en el procesamiento. Estos desarrollos están planificados para ser liberados como proyectos de código abierto, ofreciendo recursos valiosos para la comunidad de investigación en inteligencia artificial.

Con el éxito de Llama 3.3 Swallow, el equipo busca potenciar aún más las capacidades del modelo en el futuro y explorar nuevas aplicaciones en diversas áreas de la tecnología y la comunicación.
vía: AWS machine learning blog

Scroll al inicio