fbpx

Sora: el generador de vídeos de OpenAI

El creador de ChatGPT y DALL-E, OpenAI, ha presentado a Sora, su generador de vídeos por IA, con varios ejemplos impresionantes pero perfeccionables.

Sora, el generador de vídeo desarrollado por OpenAI es “capaz de crear escenas realistas y creativas a partir de instrucciones textuales”, comenta la empresa en una publicación de su blog. En sus últimas fases de prueba, este nuevo modelo es abrumador como lo podemos ver en los ejemplos compartidos por OpenAI.

Este nuevo modelo puede generar videos con una duración máxima de un minuto, “manteniendo la calidad visual y la coherencia con el estímulo del usuario”. Concretamente, con Sora será posible generar videos de la misma manera que se genera una imagen con herramientas como DALL-E o Midjourney. “Sora es capaz de manejar escenas complejas con varios personajes, tipos de movimientos específicos y detalles precisos del sujeto y del fondo”, explica OpenAI.

Los desarrolladores señalan que el modelo posee una comprensión profunda de los prompts, lo que le permite interpretarlos con precisión y generar personajes realistas y convincentes, capaces de mostrar emociones. Además, con Sora puedes realizar varios planos dentro de una sola secuencia generada, conservando los personajes y el estilo visual.

Ejemplos de videos generados por Sora

En su publicación de blog y a través de su cuenta X, OpenAI ha compartido ejemplos de secuencias de video que Sora parece capaz de generar, junto con las solicitudes utilizadas:

Este video responde a la siguiente solicitud (originariamente en inglés): “la hermosa ciudad de Tokio cubierta de nieve está llena de vida. La cámara se desplaza por las animadas calles de la ciudad, siguiendo a varias personas que disfrutan del hermoso clima nevado y haciendo compras en los puestos cercanos. Hermosos pétalos de cerezo vuelan con el viento junto con los copos de nieve.”

Esta secuencia fue generada utilizando la siguiente solicitud (originalmente en inglés): Un avance de película que presenta las aventuras de un hombre en el espacio de 30 años que lleva un casco de moto tejido en lana roja, cielo azul, desierto de sal, estilo cinematográfico, filmado en película de 35mm, colores vibrantes.

Este tercer ejemplo responde a la solicitud (originalmente en inglés): La historia de vida de un robot en un entorno cyberpunk.

Los desarrolladores de OpenAI comentan que el modelo de generación de videos aún se encuentra en fase de prueba y necesita ser perfeccionado. Por lo tanto, habrá que esperar un poco más para poder probarlo. A pesar de que las secuencias reveladas probablemente han sido seleccionadas cuidadosamente, OpenAI también ha difundido algunos videos que muestran las debilidades de la herramienta. “El modelo actual (…) puede tener dificultades para simular con precisión la física de una escena compleja y puede no comprender casos específicos de causa y efecto”.

El modelo puede perder detalles espaciales, a veces confunde su derecha y su izquierda, crea movimientos de cámara “físicamente inverosímiles”, hace que aparezcan elementos espontáneamente (animales, personas) “en escenas que contienen muchas entidades”, no logra dar un aspecto rígido a ciertos objetos… “Simular interacciones complejas entre objetos y varios personajes es un desafío para el modelo, lo que a veces resulta en generaciones humorísticas”, comenta OpenAI sobre el cumpleaños un tanto dudoso de esta abuela.

Una versión en desarrollo

Actualmente, Sora está en manos de los red teamers de OpenAI, el equipo encargado de evaluar “las áreas críticas” del generador, especialmente en lo que respecta a los riesgos legales, morales y éticos. Esto incluye a expertos en desinformación, contenidos de odio y prejuicios, “que prueban el modelo de manera contradictoria”. Las mismas reglas que aplica OpenAI a DALL-E, el generador de imágenes, se utilizarán para Sora: por lo tanto, las solicitudes que contengan violencia extrema, contenido sexual, imágenes de odio o parecido con una celebridad serán prohibidas.

“Estamos desarrollando herramientas para ayudar a detectar contenidos engañosos, como un clasificador de detección capaz de determinar cuándo un vídeo ha sido generado por Sora.”

A medida que los modelos de generadores de vídeo existentes, como Gen-2, han sido el origen de numerosos deepfakes, y que OpenAI y Microsoft acaban de advertir sobre el uso malicioso de sus chatbots, será necesario que Sora garantice un uso responsable. “Movilizaremos a los responsables políticos, educadores y artistas de todo el mundo para entender sus preocupaciones e identificar casos de uso positivos de esta nueva tecnología”, concluye OpenAI.

https://openai.com/sora

Jean-Luc Lenoble
https://www.linkedin.com/in/jeanluclenoble