OpenAI redefine la generación de vídeo: De unos inicios borrosos a un realismo digno de Hollywood

OpenAI ha presentado un sistema que lleva la generación de vídeos a un nivel completamente nuevo. La demostración mostró vídeos que podrían confundirse fácilmente con escenas sacadas de una película de Hollywood. En cuestión de minutos, el sistema de OpenAI produjo vídeos cortos de lugares abarrotados de Lagos, un monstruo hipnotizador mirando una vela que se derrite y una escena callejera de Tokio captada por una cámara que recorre la ciudad en picado.

El marcado contraste entre los primeros intentos de Runway AI y las capacidades actuales de OpenAI pone de relieve los rápidos avances de la tecnología de IA. El logro de OpenAI no solo demuestra la velocidad a la que avanza la innovación, sino que también deja entrever el potencial de la IA para revolucionar la creación de contenidos en la industria del entretenimiento.

Sora, nombre de la palabra japonesa que significa cielo, es un modelo de texto a vídeo que posee una capacidad innata para simular el mundo físico, proyectando su comprensión en el espacio de píxeles con una precisión asombrosa. La capacidad del modelo para generar vídeos de hasta un minuto de duración manteniendo la calidad visual y atendiendo a las indicaciones del usuario lo distingue en el ámbito de la IA.

Tabla de contenidos

Profundizando en el trabajo de investigación de Sora

Pero lo que realmente distingue a Sora es su capacidad para aprovechar el poder de la imaginación, similar a los procesos creativos de la mente humana. Al igual que los humanos imaginan posibles escenarios al absorber estímulos visuales, Sora utiliza un modelo interno del mundo para simular el futuro y el pasado. Esta característica tiene profundas implicaciones para el avance de las tecnologías autónomas, como los coches autoconducidos y la robótica, al permitir a la IA comprender y simular las complejidades del mundo real.

Puedes ampliar una película existente con fotogramas anteriores o posteriores. Es decir, si quieres que El Señor de los Anillos tenga un final ampliado, seguro que en el futuro puedes pedirle a Sora que le añada una nueva escena. Esto permitirá a los coches autoconducidos o a los robots autónomos prever o simular escenarios para minimizar los riesgos y mitigarlos antes de que sucedan. Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real.

Ejemplo Prompt: Vista de dron de las olas rompiendo contra los escarpados acantilados de la playa de Garay Point en Big Sur. Las aguas azules crean olas de punta blanca, mientras que la luz dorada del sol poniente ilumina la costa rocosa. A lo lejos se divisa una pequeña isla con un faro, y arbustos verdes cubren el borde del acantilado. La pronunciada caída desde la carretera hasta la playa es espectacular, con los bordes del acantilado sobresaliendo sobre el mar. Es una vista que capta la cruda belleza de la costa y el escarpado paisaje de la autopista de la costa del Pacífico.

La decisión de OpenAI de dar a conocer anticipadamente los avances de la investigación sobre Sora es un movimiento estratégico para atraer a un público diverso. Red teamers, artistas visuales, diseñadores y cineastas están entre los primeros en explorar el potencial de Sora, proporcionando información crucial para mejorar sus capacidades para diversas aplicaciones profesionales.

La era de la desinformación y los deepfakes

Sin embargo, es esencial reconocer que Sora tiene sus limitaciones. El modelo puede tener dificultades para simular con precisión la física de escenas complejas y comprender casos específicos de causa y efecto. OpenAI es transparente acerca de estas deficiencias, haciendo hincapié en el compromiso continuo con las medidas de seguridad antes de hacer Sora ampliamente disponible.

Los pasos de seguridad incluyen la colaboración con equipos rojos especializados en desinformación, contenidos odiosos y sesgos, así como el desarrollo de herramientas para detectar contenidos engañosos generados por Sora. La experiencia de OpenAI con métodos de seguridad de proyectos anteriores, como DALL-E 3, se aprovecha para garantizar un despliegue responsable.

En colaboración con responsables políticos, educadores y artistas de todo el mundo, OpenAI pretende abordar las preocupaciones e identificar casos de uso positivos para esta tecnología de vanguardia. A pesar de las exhaustivas investigaciones y pruebas, OpenAI reconoce la naturaleza impredecible del uso de la tecnología y subraya la importancia de aprender de las aplicaciones del mundo real para mejorar continuamente y lanzar sistemas de IA más seguros.

Ejemplo Prompt: Una mujer con estilo camina por una calle de Tokio llena de cálidos neones brillantes y animados letreros de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean.

Sam Altman reta a los usuarios de X a que le den indicaciones para crear vídeos basados en lo que le pidieron. Muy interesante comprobar qué indicaciones han funcionado bien y cuáles son un poco graciosas:

Algunos aspectos destacados del trabajo de investigación:

«Sora también puede recibir otras entradas, como imágenes o vídeos preexistentes. Esta capacidad permite a Sora realizar una amplia gama de tareas de edición de imagen y vídeo: crear vídeos en bucle perfectos, animar imágenes estáticas, extender vídeos hacia delante o hacia atrás en el tiempo, etc.».
«Sora también es capaz de extender vídeos hacia delante o hacia atrás en el tiempo«.
«Edición de vídeo a vídeo, los modelos de difusión han permitido una plétora de métodos para editar imágenes y vídeos a partir de indicaciones de texto. A continuación aplicamos uno de estos métodos, SDEdit,32 a Sora. Esta técnica permite a Sora transformar los estilos y entornos de los vídeos de entrada sin necesidad de realizar ningún disparo».
«Sora también es capaz de generar imágenes. Lo hacemos disponiendo parches de ruido gaussiano en una cuadrícula espacial con una extensión temporal de un fotograma. El modelo puede generar imágenes de tamaños variables: hasta 2048×2048 de resolución.»
«Sora es un modelo generalista de datos visuales: puede generar vídeos e imágenes de diversas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta definición».
«Sora puede muestrear vídeos panorámicos de 1920x1080p, vídeos verticales de 1080×1920 y todo lo que hay entre medias. Esto permite a Sora crear contenidos para distintos dispositivos directamente en sus relaciones de aspecto nativas. También nos permite crear rápidamente prototipos de contenidos a tamaños inferiores antes de generarlos a resolución completa, todo ello con el mismo modelo.»
«Capacidades de simulación emergentes. Descubrimos que los modelos de vídeo muestran una serie de capacidades emergentes interesantes cuando se entrenan a escala. Estas capacidades permiten a Sora simular algunos aspectos de personas, animales y entornos del mundo físico. Estas propiedades emergen sin ningún sesgo inductivo explícito para 3D, objetos, etc. – son puramente fenómenos de escala.»

Preguntas más frecuentes

P1: ¿En qué se diferencia Sora de otros modelos de conversión de texto en vídeo?

Sora se distingue por producir vídeos muy realistas y visualmente impresionantes, mostrando el compromiso de OpenAI de ampliar los límites de las capacidades de la IA.

P2: ¿Existe el riesgo de que Sora se utilice para desinformar?

OpenAI es consciente de los riesgos potenciales y está participando activamente en un proceso de red teaming para identificar y abordar cualquier escenario de uso indebido.

P3: ¿Puede el público acceder a Sora?

Por el momento, Sora no está a disposición del público, y OpenAI está evaluando detenidamente las capacidades del sistema y los peligros potenciales antes de lanzarlo al mercado.

Sora, de OpenAI, representa un importante salto adelante en la tecnología de vídeo generado por IA. Aunque sus capacidades son asombrosas, el enfoque de desarrollo responsable garantiza que los riesgos potenciales se evalúen y aborden a fondo. Mientras Sora sigue siendo objeto de evaluación, sigue siendo una visión prometedora del futuro de la creatividad de la IA.

Agradezco su tiempo y atención a mi último artículo. Aquí en Medium y en LinkedIn escribo regularmente sobre IA, lugar de trabajo, negocios y tendencias tecnológicas. Si te ha gustado este artículo, también puedes encontrarlo en www.thereach.ai, un sitio web dedicado a mostrar aplicaciones e innovaciones de IA.

Si quieres seguir en contacto conmigo y leer mis próximos artículos, puedes suscribirte a mi newsletter gratuito. También puedes ponerte en contacto conmigo en Twitter, Facebook o Instagram.

OpenAI redefine la generación de vídeo: De unos inicios borrosos a un realismo digno de Hollywood

PorSorin Ciornei

Profundizando en el trabajo de investigación de Sora

La era de la desinformación y los deepfakes

Algunos aspectos destacados del trabajo de investigación:

Preguntas más frecuentes

P1: ¿En qué se diferencia Sora de otros modelos de conversión de texto en vídeo?

P2: ¿Existe el riesgo de que Sora se utilice para desinformar?

P3: ¿Puede el público acceder a Sora?

Por Sorin Ciornei

Entrada relacionada

OpenAI Prompt Caching

Silvia Avilés: La Inteligencia Artificial y la sostenibilidad marcarán el futuro del turismo en TIS 2024

Guía para principiantes de s3cmd

Deja una respuesta Cancelar la respuesta

You missed

OpenAI Prompt Caching

Silvia Avilés: La Inteligencia Artificial y la sostenibilidad marcarán el futuro del turismo en TIS 2024

Guía para principiantes de s3cmd

UniversityHack 2024: un reto de innovación y talento en Inteligencia Artificial