Imagine una experiencia de realidad virtual de próxima generación que le permita crear escenas realistas, personajes inteligentes y situaciones complejas y luego interactuar con ellos en tiempo real. Está por llegar, debido a una convergencia de tecnología como este avance en video 3D en tiempo real.
He estado pensando en esto durante meses; entre generadores de video de IA como Sora, herramientas de creación narrativa y de personajes de IA, herramientas de creación de música y efectos de sonido de IA, y proyectos como Google Genie, dedicado a la creación en vivo de juegos y experiencias interactivos completos en tiempo real, la mayoría de los ingredientes principales ya están aquí. – en forma embrionaria.
Claro, todavía no existe un generador de hologramas adecuado, pero si estás dispuesto a aceptar un visor de realidad virtual en tu cabeza, la velocidad, la latencia y la convergencia me parecen las únicas barreras entre dónde estamos ahora y una experiencia Holodeck en pleno funcionamiento, en la que simplemente dice dónde quiere estar, quién más está allí y qué debería estar sucediendo, y luego aparece una versión de eso ante sus ojos como una experiencia totalmente interactiva.
De vez en cuando, en el frenesí de avances en el campo de la IA, algo me llama la atención que parece acercar un paso más este tipo de experiencia. Y el de hoy es un artículo de investigación titulado Representación de vídeo volumétrico largo con jerarquía gaussiana temporal.
El vídeo volumétrico es por naturaleza más complejo que el vídeo normal. En lugar de una matriz 2D de píxeles cuadrados que cambian con el tiempo, el vídeo volumétrico genera ‘vóxeles’ cúbicos en un espacio 3D, una representación mucho más útil de una escena si quieres poder caminar alrededor de ella y cambiar tu perspectiva. Cuando juegas un videojuego que representa el mundo en 3D, estás viendo un vídeo volumétrico.
Este artículo detalla un avance en la presentación de video volumétrico que reduce radicalmente la RAM de video y el almacenamiento de datos necesarios para renderizar videos fotorrealistas a partir de activos de video 3D. Puede renderizar escenas muy detalladas con una resolución de 1080p, a 450 fotogramas por segundo, durante 10 minutos completos o más, utilizando una GPU nVidia RTX 4090 estándar, y puede hacerlo en tiempo real, permitiendo el movimiento interactivo de la cámara y todo eso.
La técnica involucrada, Jerarquía Temporal Gaussiana, esencialmente observa la escena y determina qué áreas de la escena están cambiando rápidamente y cuáles se mueven más lentamente o no se mueven en absoluto, y crea una jerarquía de representación para poder dedicar más tiempo a la renderización. los bits complejos y de rápido movimiento y ahorre tiempo dedicando menos procesamiento a los bits lentos o estáticos.
Vaya, también hace un buen trabajo. Los investigadores, un equipo multinacional formado por la Universidad de Zhejiang, la Universidad de Stanford y la Universidad de Ciencia y Tecnología de Hong Kong, dicen que la técnica generó 18.000 fotogramas de vídeo utilizando sólo 17,2 GB de VRAM y 2,2 GB de almacenamiento, una reducción de 30 y 26 veces, respectivamente. , en comparación con el método 4K4D de última generación anterior.
¡Mira una explicación más detallada en el video a continuación, si tienes la cabeza para este tipo de cosas!
(SIGGRAPH Asia 2024 (TOG)) Representación de vídeo volumétrico largo con jerarquía gaussiana temporal
Cualquiera que sea la brujería detrás de esto, los resultados son extraordinarios, como habrás visto en los videos incluidos a lo largo de este artículo. La forma en que se representa el cabello me deja boquiabierto. Nuevamente, eso es en tiempo real en una tarjeta de video estándar, aunque de alta gama, para el consumidor.
Este tipo de representación eficiente e instantánea de mundos 3D complejos bien podría convertirse en una parte crucial de esa experiencia Holodeck VR; Si puedes generar 450 cuadros de video volumétrico por segundo, bueno, puedes generar 225 cuadros de visión estéreo de 1080p por segundo para un visor de realidad virtual, como se muestra a continuación con un Apple Vision Pro.
Es algo bastante loco y otro recordatorio más de la salvaje aceleración que estamos viendo en múltiples campos en 2024. ¡Muy bueno!
Fuente: GitHub vía Min Choi