Einführung von RTFM (Real-Time Frame Model): ein hocheffizientes Weltmodell, das Video-Frames in Echtzeit generiert, während Sie mit ihm interagieren, betrieben von einer einzigen H100 GPU. RTFM rendert persistente und 3D-konsistente Welten, sowohl reale als auch imaginäre. Probieren Sie noch heute unsere Demo von RTFM aus!
Generative Weltmodelle werden zwangsläufig rechenintensiv sein und könnten sogar die Anforderungen der heutigen LLMs übersteigen. Aber wir glauben, dass sie eine entscheidende Forschungsrichtung sind, die es in der Zukunft des Renderings und der räumlichen Intelligenz zu erkunden gilt.
RTFM erstellt keine explizite 3D-Darstellung der Welt. Stattdessen nimmt es ein oder mehrere 2D-Bilder als Eingabe und generiert direkt neue 2D-Bilder derselben Szene aus verschiedenen Blickwinkeln.
RTFM kann als ein lernender Renderer betrachtet werden: Es handelt sich um einen autoregressiven Diffusions-Transformer, der end-to-end auf großflächigen Videodaten trainiert wurde, und er lernt, 3D-Geometrie, Reflexionen, Schatten und mehr zu modellieren, indem er sie einfach in seinem Trainingssatz beobachtet.
RTFM kann auch verwendet werden, um reale Standorte aus spärlich aufgenommenen Fotografien zu rekonstruieren. Das sind keine echten Videos: Es sind Frames, die von RTFM generiert wurden.
Für eine begrenzte Zeit können Sie selbst eine Live-Demo von RTFM ausprobieren, die auf Cloud-GPUs gehostet und auf Ihr Gerät gestreamt wird (mobile Unterstützung inklusive!):
298,11K