«Las herramientas de IA generativa están evolucionando tan rápidamente, y tenemos la red social – que conduce a un talón de Aquiles en nuestra democracia y no podría haber ocurrido en peor momento» – Oren Etzioni
Cuando salió DALL-E cambió la forma en que el público en general veía la inteligencia artificial, más allá de la gran importancia técnica, la idea de que escribiendo texto podíamos generar imágenes ha reconfigurado nuestra imaginación.
Evidentemente, esto llevó a acelerar la búsqueda de modelos capaces de generar imágenes a partir de texto. Rápidamente Google publicó Imagen, y la propia comunidad de código abierto publicó un gran número de modelos. Sin embargo, DALL-E puso la semilla, estimulando la respuesta de investigadores y empresas. ChatGPT tuvo el mismo efecto: Google temía quedarse atrás y estimuló docenas de grandes modelos lingüísticos.
Esta semana, OpenAI ha publicado Sora: una nueva herramienta de IA Generativa que permite pasar de texto a vídeo. Veremos por qué es importante este modelo, el avance técnico que hay detrás y hablaremos del futuro. Mientras tanto, echemos un vistazo a lo que puede hacer este modelo:
Presentamos Sora, nuestro modelo de conversión de texto en vídeo. Sora puede generar vídeos de hasta un minuto de duración manteniendo la calidad visual y la adherencia a la indicación del usuario (fuente).
Pues Sora es un modelo capaz de generar vídeos a partir de texto. Vídeos de hasta un minuto de duración, pero lo más importante es que lo hace con una calidad increíble, impensable hasta ahora.
Tabla de contenidos
Pero, ¿cómo lo hace?
En este caso, OpenAI ha publicado un informe técnico. Como ya es tradición, estos informes técnicos son muy amplios y solo dan una idea general de cómo funciona el modelo.
Empecemos por el hecho de que Sora no sólo es capaz de generar vídeo:
- Texto a vídeo. Vídeo que puede ser en diferentes formatos (de 1920 x 1080 a 1080 x 1920 y todo lo demás) y de hasta un minuto de duración.
- Imagen a vídeo. Puede partir de una imagen.
- Vídeo a vídeo. Cambiar el estilo de un vídeo (básicamente edición de vídeo).
- Extender el vídeo en el tiempo. Ya sea hacia delante o hacia atrás, o crear bucles sin fin.
- Generar imágenes.
- Simular mundos.
Muchos de los modelos actuales son capaces de producir vídeos excelentes, pero o son muy cortos o sólo se dedican a castigar un tipo concreto de vídeo, necesitan formatos específicos y, en cualquier caso, están muy limitados por el algoritmo que tienen detrás. Sora, en cambio, es flexible tanto en datos como en funcionalidad.
Esto se puede notar aquí (en comparación con Pika, Runway y Leonardo):
Sora es un modelo de difusión, que genera un vídeo partiendo de uno que parece ruido estático y lo transforma gradualmente eliminando el ruido a lo largo de muchos pasos. (Fuente)
Sora es entonces un modelo de difusión (por tanto, como DALL-E) y lo combina con un transformador que puede analizar el texto.
El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresen emociones vibrantes.
Así pues, Sora nació combinando la experiencia de OpenAI adquirida con ChatGPT y DALL-E, y esto es lo que le permite los detalles vibrantes.
¿Y la capacidad de vídeo?
Parches espaciotemporales. Un trabajo anterior de DeepMind había introducido el concepto (Google DeepMind on NaViT). En otras palabras, se trata de una extensión del Transformador de Visión (ViT). En otras palabras, en ViT la imagen se transforma en una serie de parches.
Un vídeo es una secuencia de imágenes, por lo que podría transformarse en imágenes y en una serie de parches. El problema es que un vídeo requiere muchas imágenes y, por tanto, muchos parches (y además tenemos una dimensión adicional).
El truco está en que el modelo se centra en tratar el vídeo no como una secuencia de imágenes sino como una secuencia de parches en el espacio-tiempo, esto permite aprender una representación más precisa.
OpenAI también es conocido por entrenar modelos con enormes cantidades de datos. Esta enorme diversidad de datos, tanto en cantidad como en calidad, es también uno de los factores que hacen que este modelo sea tan preciso y flexible.
OpenAI no ha publicado ni descrito el conjunto de datos de entrenamiento, pero se han hecho suposiciones. Tanto los artefactos como algunos detalles muestran que se utilizó Unreal Engine 5 para generar imágenes y texto. Por ejemplo, alguien señala: «El Sora «hombre del espacio de 30 años» tiene unos labios y un bigote que gritan metahumano Unreal».
O bien, el movimiento de las personas u otros detalles. Por un lado, tiene sentido porque permite obtener datos para el entrenamiento de una forma mucho más barata.
Sora parece seguir la ley de escalado, al aumentar el tiempo de computación los resultados mejoran. Esto significa que al aumentar el entrenamiento y los datos, el rendimiento del modelo mejorará.
Sin embargo, los resultados ya parecen increíbles, tanto en lo que se refiere al espacio tridimensional como a la permanencia de los objetos. De hecho, el modelo parece aprender el mundo físico con una precisión impresionante y los objetos parecen moverse de forma convincente en el espacio.
Descubrimos que los modelos de vídeo muestran una serie de capacidades emergentes interesantes cuando se entrenan a escala. Estas capacidades permiten a Sora simular algunos aspectos de personas, animales y entornos del mundo físico. Estas propiedades emergen sin ningún sesgo inductivo explícito para 3D, objetos, etc. – son puramente fenómenos de escala.
Según los autores, estas capacidades se derivan del entrenamiento a escala (y, por tanto, mejorarían en el futuro). Para los autores, además, se puede utilizar el modelo para simular mundos digitales. Por tanto, Sora podría revolucionar los videojuegos:
Sora puede controlar simultáneamente al jugador en Minecraft con una política básica y, al mismo tiempo, renderizar el mundo y su dinámica en alta fidelidad. (Fuente)
¿Cuándo estará disponible?
Hoy mismo, Sora está a disposición de los equipos rojos para que evalúen las zonas críticas en busca de daños o riesgos. También estamos dando acceso a una serie de artistas visuales, diseñadores y cineastas para recabar sus opiniones sobre cómo hacer avanzar el modelo para que resulte más útil a los profesionales creativos (Fuente).
Por ahora no hay fecha de lanzamiento, ni tampoco lista de espera. En el anuncio, OpenAI está evaluando la seguridad del modelo y, por ahora, sólo puede ser probado por un conjunto limitado de personas. Si estás interesado, Sam Altman está pidiendo en Twitter a sus seguidores que sugieran indicaciones y luego publicará el resultado.
¿El futuro?
El mero hecho de haber mostrado estas capacidades hará que el vídeo se dispare. Desde luego, Google ya está intentando reproducirlo. Pero hoy en día muchos grupos tienen conocimientos tanto de texto a imagen como de LLM. Probablemente alguien empezará a conectar Mistral con la difusión estable y tratará de replicar el proceso que hay detrás de Sora.
Estos modelos podrán abaratar mucho la creación de videojuegos y películas. Además, la experiencia será muy inmersiva en los videojuegos; de hecho, las elecciones del usuario podrán cambiar el propio desarrollo del mundo. Por no hablar de que estos modelos hacen que la creación de contenidos visuales sea asequible para todo el mundo.
Las implicaciones sociales podrían ser preocupantes. Las imágenes DeepFake son cada vez más convincentes (como señala este post del New York Times). Antaño, el vídeo se consideraba un testigo irrefutable de cómo sucedían los hechos, a día de hoy, ya no.
OpenAI es consciente de ello, tratando de encontrar una manera de poder aumentar la seguridad, pero afirman:
A pesar de las numerosas investigaciones y pruebas realizadas, no podemos predecir todas las formas beneficiosas en que la gente utilizará nuestra tecnología, ni todas las formas en que abusará de ella.
Sora promete redefinir nuestras interacciones con el mundo digital y simular mundos y videojuegos. Si estos mundos serán una pesadilla lo veremos en los próximos meses.
Si te ha parecido interesante: Puedes buscar mis otros artículos, y también puedes conectar o ponerte en contacto conmigo en LinkedIn. Consulta este repositorio con noticias actualizadas semanalmente sobre ML e IA.