La ausencia de Sora 2 de GPT-5: ¿Representa un salto cuántico en la tecnología de video con IA?

¡Vamos OpenAI, necesitamos una voz!

La empresa se está preparando OpenAI Para lanzar una nueva versión de su modelo de video pionero impulsado por IA, Sora, en algún momento de este trimestre. Si bien fue revolucionario en su lanzamiento, Sora ha perdido terreno frente a la competencia, y Veo 3 de Google se ha convertido en el referente en generación de video con IA.

Espero que Sora 2 llegue en las próximas semanas o meses, dado el rápido lanzamiento de GPT-5Al igual que GPT-4o, GPT-5 es multimodal de forma nativa y maneja cualquier tipo de entrada o salida (incluido video) mientras realiza tareas de inferencia complejas similares a los modelos de la serie “o”.

Sora sigue siendo una plataforma potente. Su función Storyboard está revolucionando el mercado y los suscriptores pueden... ChatGPT Pro crea clips de hasta 20 segundos. Sin embargo, el modelo base ya se nota antiguo. El resultado aún presenta problemas de control de movimiento, falta generación de sonido y tiene dificultades para renderizar física compleja, a diferencia del Veo 3, el Kling 2.1 o el MiniMax 2.

Incluso en el espacio de video social, OpenAI ahora enfrenta la competencia de casi todas las plataformas de IA, incluidas Meta y GrokyMidjourneySin embargo, OpenAI sigue siendo el laboratorio de IA más grande del mundo, con importantes recursos, y a pesar de las recientes adquisiciones de talento de Meta, cuenta con un sólido equipo de ingeniería. No los descarten todavía.

¿Qué necesita OpenAI para que Sora sea competitivo?

Para competir con el modelo de vídeo de Google o con los nuevos competidores chinos en el campo de la IA de vídeo generativo, OpenAI debe maximizar sus capacidades multimedia y, al mismo tiempo, ampliar las funciones de Sora. Una mayor integración con ChatGPT también sería beneficiosa. A continuación, se presentan cinco mejoras clave para Sora 2:

1. Generación de audio original: un requisito esencial e irrenunciable

Si OpenAI aspira a competir con Veo 3 de Google en la generación de video con IA, Sora 2 debe gestionar tanto el video como el audio de forma nativa y fluida. Cualquier modelo que no admita la generación de audio parte de una clara debilidad.

Actualmente, Sora solo produce vídeos mudos, lo cual supone una gran desventaja, sobre todo porque Veo 3 cuenta con la capacidad de generar efectos de sonido, ruido ambiental e incluso diálogos como componente fundamental de su funcionalidad. No se trata solo de añadir audio como una idea de último momento, sino de integrar plenamente el vídeo y el audio.

Veo 3 puede producir voces sincronizadas para personajes de video en varios idiomas. Sora 2 requiere la misma capacidad de generación de audio integrada, desde paisajes sonoros ambientales hasta diálogos hablados. Esta capacidad es esencial para crear contenido de video realista y atractivo.

Si OpenAI logra generar contenido multimedia completo (video + audio) con una duración de video de 20 segundos o más, no solo alcanzará a Veo 3, sino que podría superarlo por completo en el mercado de la generación de video con IA. Esta superioridad lo convertirá en líder en este campo tecnológico avanzado.

2. Mejorar radicalmente la simulación de física

La realidad visual va más allá de la mera precisión; se basa principalmente en la física. Los vídeos actuales de Sora suelen presentar movimientos antinaturales o física distorsionada: el agua desafía la gravedad, los objetos se mueven de forma impredecible o movimientos que parecen fundamentalmente erróneos. Esta falta de realismo físico degrada la calidad del vídeo y le da un aspecto artificial.

Google priorizó claramente la física realista del mundo real con Veo 3, y los resultados hablan por sí solos. Sus videos sobresalen al simular física realista y movimiento dinámico con errores mínimos. Por otro lado, el antiguo modelo de Sora produce movimientos bruscos e interacciones inconsistentes con los objetos que arruinan la inmersión. Por ejemplo, en Sora, es posible que veas objetos moviéndose extremadamente rápido o comportándose de maneras físicamente imposibles.

Para que Sora 2 compita, su modelo debe comprender mejor el comportamiento del mundo real, desde la marcha humana natural hasta el rebote de pelotas, desde la dinámica del humo hasta la mecánica de fluidos. OpenAI necesita integrar un motor de física en Sora. El movimiento y las interacciones creíbles (sin extremidades distorsionadas ni fondos derretidos) acortarán distancias cruciales con la competencia. Esto requiere mejoras significativas en la comprensión y aplicación de la física subyacente por parte del modelo.

3. La orientación conversacional debe ser la norma.

¿Cuál es el secreto de OpenAI? ChatGPT ya ha entrenado a millones de personas para comunicarse conversacionalmente con IA. Sora 2 debería aprovechar esto, haciendo que la creación de videos se sienta como una conversación, no solo como programación.

En lugar de requerir instrucciones precisas o una navegación compleja por la interfaz, el sistema debería permitir una optimización natural de ida y vuelta. Google ya está avanzando en esta dirección: su herramienta Flow utiliza la IA de Gemini para facilitar la navegación intuitiva en lenguaje cotidiano.

Runway lo consigue de maravilla con su modo de chat y ahora con la nueva herramienta Aleph, que permite a Gen-4 mejorar con maestría cualquier elemento. La Máquina de Sueños de Luma se creó desde cero con este concepto en mente.

Imagina este flujo de trabajo: Escribe "caballero medieval en una montaña", recibe un borrador de video y simplemente di: "Conviértelo en un amanecer y añade un dragón", y Sora actualiza la escena al instante. Este enfoque conversacional reducirá las barreras para los principiantes y agilizará los flujos de trabajo para los profesionales.

La tecnología ya existe. ChatGPT ya interpreta las solicitudes de seguimiento y ajusta dinámicamente la salida (como se demuestra con la integración nativa de imágenes en GPT-4os). Sora 2, totalmente integrado con ChatGPT, debería permitirnos crear vídeos impresionantes con la ayuda de la palabra. Esta experiencia de usuario superará la guía técnica que aún requieren la mayoría de la competencia.

También te permitirá crear primero imágenes originales y luego animaciones con Sora, de forma similar a cómo funciona Google con Veo 3 en Gemini o con la nueva función Grok Imagine. Esta integración mejorará significativamente tus capacidades de creación de contenido visual.

4. La importancia de la consistencia y personalización del personaje en la próxima generación de Sora

La consistencia entre personajes y escenas es otra mejora crucial en la que centrarse al desarrollar modelos de IA para la generación de vídeo. Actualmente, generar dos clips de la frase "chica con vestido rojo" puede generar dos personajes completamente diferentes. El resultado de Sora suele variar en estilo y detalle entre diferentes generaciones, lo que hace casi imposible producir historias coherentes con múltiples escenas o personajes recurrentes.

Sora 2 debería permitir la creación de personajes, objetos y estilos artísticos consistentes en videoclips o series más largas. La competencia ya ofrece esta función, y Kling 2.1 presume de "personajes consistentes e iluminación cinematográfica directamente desde las indicaciones de texto". Google Flow va más allá, permitiendo usar recursos personalizados (retratos, estilos artísticos específicos) como "componentes" en múltiples escenas.

OpenAI debería ofrecer capacidades similares: subir imágenes de referencia, ajustar el estilo o la continuidad de los personajes en las distintas escenas. Si Sora 2 logra mantener la consistencia de los personajes a lo largo de un vídeo, los creadores podrán contar historias de verdad en lugar de producir clips separados. Sobre todo si cuenta con integración de audio nativo para clips de más de 20 segundos.

La consistencia y la personalización se complementan a la perfección: tanto si eres un artista que mantiene un estilo distintivo como un cineasta que necesita continuidad en sus personajes, Sora 2 debería ofrecerte este control. Esto garantiza que la visión del usuario se refleje con mayor precisión y abre la puerta a mayores posibilidades creativas en el campo de la IA generativa.

5. Integración profunda con ChatGPT y disponibilidad global

OpenAI debe fortalecer su posición en el mercado integrando completamente Sora 2 en ChatGPT, garantizando al mismo tiempo su amplia accesibilidad. Mientras que Veo de Google se conecta a un conjunto más amplio de herramientas (incluida la integración con Gemini, el acceso a la API y la app Flow), Meta está obligado a integrar el vídeo con IA en todos sus productos.

OpenAI podría diferenciarse al integrar Sora 2 en ChatGPT. Esta integración instantánea ofrecería a millones de usuarios de ChatGPT un estudio de video con IA sin tener que cambiar de aplicación. Podrían seguir el enfoque de Google de establecer un límite bajo en la cantidad de videos que se pueden crear por día, a la vez que ofrecen un plan de suscripción premium con acceso ilimitado, como ocurre actualmente con ChatGPT Pro y Sora.

Optimizar la experiencia móvil es crucial. Los creadores de hoy graban, editan y publican completamente desde sus teléfonos. Si Sora 2 se ejecuta dentro de la app móvil de ChatGPT (o una app dedicada de Sora) con funciones de creación rápida, podría dominar el mercado de creadores en TikTok y Reels. Imagina decirle a tu teléfono: "ChatGPT, crea un video de 15 segundos de mí como un astronauta de dibujos animados aterrizando en Marte" y recibir contenido para compartir al instante.

Al hacer que Sora 2 sea omnipresente (a través de ChatGPT, API para desarrolladores y plataformas móviles), OpenAI puede desarrollar rápidamente su base de usuarios y, al mismo tiempo, recopilar comentarios esenciales para mejorar.

Plataformas como Leonardo, Freepik y Higgsfield ya utilizan ampliamente Veo 3 de Google y MiniMax 2 de Hailuo por su impresionante velocidad y disponibilidad mediante API. OpenAI se está quedando atrás en el campo de la IA creativa debido a la falta de actualizaciones de Sora.

Conclusión

OpenAI tiene una oportunidad real de recuperar su liderazgo en IA generativa aprendiendo del éxito de sus competidores. Actualmente, el modelo Veo 3 de Google es el referente gracias a sus excepcionales capacidades para generar voz auténtica, simular física realista y responder con precisión a comandos de texto. Mientras tanto, modelos emergentes como el Kling 2.1 y el MiniMax 2 continúan ampliando las posibilidades en este campo.

Runway avanza a paso firme con nuevas mejoras en su modelo Gen-4, que ofrece una calidad de simulación física similar a la de Sora, pero con funciones adicionales. Mientras tanto, otras empresas como Pika se centran en satisfacer las necesidades de los creadores, aumentando la presión sobre OpenAI y reduciendo su cuota de este valioso mercado.

Sora 2 no puede ser simplemente una simple mejora incremental; debe sorprender a todos con sus increíbles capacidades.

La buena noticia es que OpenAI ya cuenta con los elementos clave para el éxito: un potente modelo de lenguaje, un modelo de video de primera generación sobre el cual construir y una enorme base de usuarios gracias a ChatGPT. Si OpenAI logra ofrecer generación de voz nativa, simulación física realista, facilidad de conversación, una colocación consistente de personajes en las escenas y una integración fluida con otros productos, Sora 2 sin duda superará a Veo 3, Kling y a todos los demás competidores en este sector.

Cuando se combinan todas estas características, no te sorprendas si el próximo vídeo que se vuelva viral en las redes sociales se creó utilizando Sora 2.

ChatGPT Sora