Recientemente, OpenAI llevó a cabo una actualización de ChatGPT 4.0 que generó un intenso debate en redes sociales, especialmente en Twitter. La nueva versión del modelo se destacó por ser excesivamente complaciente, lo que llevó a la empresa a revertir la actualización en un breve lapso. En un análisis post-mortem, OpenAI reveló que habían integrado las valoraciones de los usuarios, tanto «me gusta» como «no me gusta», en el entrenamiento del modelo, lo que abrió un interesante cuestionamiento sobre la calidad de los datos humanos utilizados en el aprendizaje automático.
Este incidente subraya un punto relevante: la suposición de que los datos provenientes de las preferencias humanas son siempre el estándar dorado puede no ser del todo válida. De hecho, los gustos promedio de las personas pueden resultar ser simplemente eso, promedio, lo cual no es suficiente en la creación de productos de inteligencia artificial. En este contexto, surge la propuesta de utilizar datos sintéticos como una vía para replicar y escalar el mejor juicio posible en el desarrollo de productos.
Los datos sintéticos se definen a través de cuatro pilares fundamentales: evaluación, entrenamiento, generación de datos y juicio sobre ellos. Esta clasificación permite abrir múltiples posibilidades para mejorar tanto modelos como productos. Al combinar casos de uso y modalidades, las empresas pueden aprovechar una menor cantidad de datos de alta calidad o recomendaciones de expertos para obtener beneficios significativos.
En un reciente podcast, Sholto Douglas planteó que, incluso si el progreso de la inteligencia artificial se detuviera por completo, los algoritmos actuales son lo suficientemente potentes como para automatizar la mayor parte del trabajo de oficina, siempre que se cuente con suficientes datos adecuados. Aunque el acuerdo con esta afirmación puede variar, no cabe duda de que hay muchas oportunidades por explorar en la automatización, dependiendo de la estrategia de datos adoptada.
La utilización de datos sintéticos permite multiplicar significativamente el efecto de una pequeña cantidad de información de alta calidad. La clave radica en una asimetría fundamental: la verificación es más fácil que la generación. En este sentido, la capacidad de un modelo para mejorar con datos que él mismo genera se apoya en la idea de que es más sencillo confirmar la validez de un resultado que crear uno desde cero. Esto sugiere que los datos sintéticos pueden ayudar a extraer y refinar la información latente contenida en un modelo, brindando así un camino hacia un avance significativo en el desarrollo de productos basados en inteligencia artificial.
vía: AI Accelerator Institute

