Presentamos RTFM (Real-Time Frame Model): un modelo mundial altamente eficiente que genera fotogramas de video en tiempo real a medida que interactúa con él, impulsado por una sola GPU H100. RTFM renderiza mundos persistentes y coherentes con 3D, tanto reales como imaginarios. ¡Pruebe nuestra demostración de RTFM hoy!
Los modelos mundiales generativos serán inevitablemente exigentes desde el punto de vista computacional, y potencialmente escalarán más allá incluso de los requisitos de los LLM actuales. Pero creemos que son una dirección de investigación crucial para explorar en el futuro del renderizado y la inteligencia espacial.
RTFM no construye una representación 3D explícita del mundo. En su lugar, toma una o más imágenes 2D como entrada y genera directamente nuevas imágenes 2D de la misma escena desde diferentes puntos de vista.
RTFM puede verse como un renderizador aprendido: es un transformador de difusión autorregresivo entrenado de extremo a extremo en datos de video a gran escala, y aprende a modelar geometría 3D, reflejos, sombras y más con solo observarlos en su conjunto de entrenamiento.
RTFM también se puede utilizar para reconstruir ubicaciones del mundo real a partir de fotografías escasamente capturadas. Estos no son videos reales: son fotogramas generados por RTFM.
Por tiempo limitado, puede probar una demostración en vivo de RTFM usted mismo, alojada en GPU en la nube y transmitida a su dispositivo (¡soporte móvil incluido!):
298.11K