Al igual que en cualquier otro sector, en el mundo de la Inteligencia Artificial hay tecnicismos relacionados con herramientas, procesos y conceptos que es importante conocer. Uno de los más destacados (sobre todo tras el auge de la IA Generativa) son los modelos de difusión, pero, ¿qué son realmente y cómo funcionan? Con el objetivo de explicar con más detalle este tipo de modelo generativo, el cual está detrás de las tecnologías como DALL-E 2 o MidJourney, la comunidad de Spain AI ha organizado un webinar de la mano de Álvaro Barbero, Chief Data Scientist en el Instituto de Ingeniería del Conocimiento (IIC).

Con el objetivo de hacer accesible la sesión y dotar de un contexto a los espectadores, Barbero comienza su intervención compartiendo diferentes ejemplos de distribución de probabilidades para explicar que es precisamente eso lo que hacen las tecnologías de IA Generativa de imágenes. Tal y como destaca «de alguna manera han aprendido viendo muchas fotos como es la distribución de valores de pixeles desde una foto y, como consecuencia, podemos decirle que genere una nueva foto en base a eso«. Por ello, la herramienta sobre la que se han asentado esas tecnologías es, de hecho, los modelos de difusión. Gracias a ellos, se pueden generar distribuciones de probabilidad muy complejas y generar nuevas muestras de esa distribución de probabilidad desconocida.

Estos sistemas tienen como base procesos de difusión que consisten en añadir «ruido» poco a poco a las imágenes, hasta que las mismas acaban por ser imágenes anuladas, es decir, el resultado es básicamente «ruido aleatorio». Pero, ¿para qué sirve esto? La clave está en que si este proceso se lleva a cabo siguiendo ciertas reglas, se va a poder obtener muestras de ese ruido aleatorio. De hecho, es capaz de crear una muestra a partir de una imagen que sea todo ruido, es decir, una imagen real, invirtiendo de este modo, el proceso.

modelos de difusión
Imagen obtenida de la presentación de Álvaro Barbero

Explicada la base conceptual de este tipo de modelos, Barbero se adentra en la vertiente matemática del mismo, mostrando las formulas estadísticas necesarias para añadir ruido en las imágenes. Cada uno de las ecuaciones matemáticas compartidas durante la sesión, permiten al futuro modelo incluir el ruido en las imágenes, así como, quitárselo. Sin embargo, es precisamente en ese último punto, donde los datos necesarios para completar la ecuación matemática se desconocen, provocando que la solución sea acudir a las redes neuronales basadas en un algoritmo de aprendizaje. Gracias a su uso, el modelo alcanza la versatilidad necesaria para poder generar imágenes y alcanzar la máxima verosimilitud en base al Data set de imágenes que se tenga previamente.

A lo largo de la intervención, Barbero pone en práctica las ecuaciones y modelos empleados, además de mostrar resultados obtenidos por otros investigadores. En ese sentido, destaca la aportación de Dhariwal y Nichol que fueron los primeros en demostrar que con modelos de difusión era posible obtener imágenes de mejor calidad que con los modelos GAN disponibles hasta ese momento.

Sin embargo, entender cómo funcionan los modelos de difusión de imágenes no es suficiente. Una vez comprendido el proceso, es preciso controlar el modelo generado con el objetivo de obtener las imágenes en base a nuestras preferencias. Para ello, se puede entrenarlo en base a un dataset de imágenes concretas, como por ejemplo, bicicletas. Sin embargo, esta técnica es un tanto rudimentaria, por lo tanto, ¿cómo se podría hacer de una forma más óptima? La respuesta se encuentra en lo que se conoce como Generación Guiada. En este sentido, Barbero comparte dos algoritmos que son clave para poder ejercer dicho control:

  • Difusión guiada por un clasificador.
  • Guiado libre de clasificador.

Es precisamente este último el que utilizan las IA’s generativas que estamos comenzando a utilizar. Gracias a que el modelo de difusión se ha entrenado con un gran dataset compuesto por imágenes y su descripción (más conocida como caption) el modelo es capaz de hacer las inferencias explicadas previamente a partir del texto que solicita el usuario. «El usuario decidirá qué clase de imagen quiere mediante el input en formato texto que le va a ofrecer y eso es lo que va a guiar el proceso de generación de la imagen. Para poder introducir el texto en la red neuronal contaremos con sistemas de embedding como CLIP y redes de tratamiento del lenguaje, conocidas como redes Transformer» indica Barbero durante la intervención.

Tras analizar en detalle cómo funciona la arquitectura de sistemas como DALL-E 2 o Stable Difussion, Barbero muestra en directo cómo ha ido trabajando a título personal con estas herramientas, aportando nuevos recursos y haciendo demos que reflejan el potencial de estas tecnologías. De hecho, la técnica que Barbero ha desarrollado ha sido bautizada como Mixture of Diffusers y está disponible como open source en su GitHub.

Sin duda una sesión muy completa en la que los espectadores pueden asimilar con total claridad el funcionamiento de estos sistemas, invitándoles a que sean ellos mismos los que hagan pruebas sobre el mismo. Si tras la lectura del artículo te has quedado con ganas de más, te compartimos la sesión completa, así podrás seguir profundizando en el apasionante mundo de los modelos de difusión:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *