Odyssey AI: convierte cualquier vídeo en un mundo jugable

¿Y si pudieras pasear por dentro de un vídeo, moverte a tu antojo y descubrir un entorno generado al vuelo, sin motores gráficos ni geometría 3D predefinida? No es ciencia ficción: es la última hazaña de Odyssey, la startup californiana que acaba de presentar una de las mayores locuras tecnológicas del año. Su IA no solo genera vídeo: genera mundos en tiempo real. Y ojo, porque la experiencia es tan inmersiva como inquietante.

¿Cómo funciona la magia de Odyssey?

Lo llaman “interactive video”. Imagínate Street View, pero pintado a mano (bueno, a red neuronal) sobre la marcha, reaccionando a tus movimientos con controles de videojuego (WASD, como en cualquier shooter en primera persona). Nada de escenas precocinadas: cada fotograma se genera en tiempo real, según cómo te mueves.

Tip técnico:
El núcleo del sistema es un world model, una red neuronal entrenada específicamente para predecir el siguiente fotograma en función de la acción del usuario. Nada de motores gráficos tradicionales. Cada paso, giro o pausa implica una predicción y renderizado nuevo, que se transmite al usuario en apenas 40 ms por fotograma (~25 FPS). Aquí no hay geometría, mesh, ni texturizado: la IA “pinta” el mundo a golpe de inferencia.

Blurry, onírico y un poco glitch: los límites del estado del arte

De momento, la experiencia es un poco como caminar por un sueño pixelado: edificios que se estiran, puertas que desaparecen, muros que de pronto dejan de ser sólidos. Si te quedas quieto mucho tiempo, el propio escenario puede mutar a tu alrededor. No esperes una física coherente: la IA todavía lucha con los conceptos básicos de colisiones y persistencia espacial.

Tip técnico:
Este tipo de distorsión se debe a que el modelo, aunque se basa en datos reales (vídeo 360º capturado con un rig propio), sigue siendo probabilístico. El sistema tiene que interpolar y “alucinar” qué debería haber al otro lado de la esquina, generando artefactos propios de modelos generativos (inestabilidad de objetos, mutaciones repentinas, falta de continuidad visual).

El reto detrás: inferencia a escala y coste computacional

Renderizar vídeo en tiempo real solo con IA no es precisamente barato. Odyssey utiliza clusters de GPU NVIDIA H100 en la nube para alcanzar tasas de hasta 30 FPS, con un coste estimado de 1 a 2 dólares por usuario y hora en tiempo de GPU. Para hacernos una idea, hablamos de uno de los modelos más “GPU hungry” del mercado.

Tip técnico avanzado:
Las GPUs H100 son ahora mismo el santo grial de la IA generativa, con soporte para grandes modelos transformer y optimizaciones para inferencia de vídeo. Si alguna vez te has peleado con tiempos de inferencia en local usando una RTX, imagina esto… pero multiplicado por decenas de usuarios simultáneos. El modelo de Odyssey transmite cada frame por streaming (no renderiza localmente) y depende de pipelines de baja latencia y mucha optimización de red y backend (tipo WebRTC o pipelines custom en C++/CUDA).

Datos propios y un dream team con ADN de Pixar

Odyssey no se ha conformado con datasets de internet. Han creado su propio sistema de captura: una mochila con cámaras 360º de alta resolución, diseñada para recoger el máximo detalle y alimentar sus modelos con material lo más “real” posible. ¿El resultado? Mundos menos “aleatorios” que otros sistemas entrenados solo con vídeos de baja calidad.

Entre sus fundadores están pioneros del coche autónomo, y en el consejo de dirección se ha sentado nada menos que Ed Catmull, cofundador de Pixar y expresidente de Disney Animation. Además, ya cuentan con 27 millones de dólares de inversión, lo que augura que esto va en serio.

Odyssey frente a la competencia: la carrera de los mundos generativos

No están solos en esta locura. Otras startups como Runway (pioneros en texto a vídeo, aunque por ahora limitado a clips cortos y baja calidad) o Luma AI (que genera objetos 3D a partir de prompts de texto y entrena con un cluster de 3.000 NVIDIA A100) también están apostando fuerte por la generación de entornos y objetos desde IA. La diferencia clave de Odyssey es que, en vez de crear clips o modelos estáticos, apuesta por mundos navegables y reactivos, aunque la coherencia todavía sea un reto.

¿Y todo esto, para qué sirve?

Si el vídeo interactivo por IA madura, podemos esperar cambios brutales en:

Entretenimiento: Películas y juegos donde cada sesión es distinta y el espectador se convierte en jugador.
Publicidad: Campañas en las que los usuarios puedan “entrar” y explorar el universo de una marca.
Formación y simulación: Entrenamientos personalizados con entornos generados al instante.
Educación: Viajes virtuales a cualquier sitio o época, sin límites de contenido pregrabado.
Cine y TV: Prototipado de escenas, scouting virtual de localizaciones y generación rápida de storyboards.

Tip técnico final:
Imagina el impacto en flujos de trabajo de producción audiovisual: un director podría explorar miles de variaciones de una escena simplemente “navegando” por versiones generadas en tiempo real. ¿Y si integramos esto con modelos de lenguaje natural para crear entornos a partir de una simple descripción de texto? Ahí es donde converge todo el hype del generative AI.

Odyssey no es solo una demo futurista, es una ventana a lo que viene en generación de mundos digitales. La IA está a punto de romper los límites del vídeo y la simulación tradicional. Y si quieres estar al tanto (o incluso probar estas tecnologías en tus proyectos), ya sabes que en The Black Box Lab nos apasiona experimentar, aprender y contarlo.

Fuente: https://odyssey.world/

The Black Box Lab

Odyssey: la IA que convierte cualquier vídeo en un mundo jugable en tiempo real