Présentation de RTFM (Modèle de Cadre en Temps Réel) : un modèle mondial hautement efficace qui génère des images vidéo en temps réel pendant que vous interagissez avec lui, alimenté par un seul GPU H100. RTFM rend des mondes persistants et 3D cohérents, réels et imaginaires. Essayez notre démo de RTFM aujourd'hui !
Les modèles mondiaux génératifs seront inévitablement exigeants en termes de calcul, pouvant potentiellement dépasser même les exigences des LLM d'aujourd'hui. Mais nous croyons qu'ils représentent une direction de recherche cruciale à explorer dans l'avenir du rendu et de l'intelligence spatiale.
RTFM ne construit pas une représentation 3D explicite du monde. Au lieu de cela, il prend une ou plusieurs images 2D en entrée et génère directement de nouvelles images 2D de la même scène sous différents angles.
RTFM peut être considéré comme un générateur appris : c'est un transformateur de diffusion autoregressif entraîné de bout en bout sur des données vidéo à grande échelle, et il apprend à modéliser la géométrie 3D, les réflexions, les ombres et plus encore simplement en les observant dans son ensemble d'entraînement.
RTFM peut également être utilisé pour reconstruire des lieux réels à partir de photographies capturées de manière éparse. Ce ne sont pas de vraies vidéos : ce sont des images générées par RTFM.
Pour une durée limitée, vous pouvez essayer vous-même une démo en direct de RTFM, hébergée sur des GPU cloud et diffusée sur votre appareil (support mobile inclus !) :
305,69K