Vi introduserer RTFM (Real-Time Frame Model): en svært effektiv verdensmodell som genererer videorammer i sanntid mens du samhandler med den, drevet av en enkelt H100 GPU. RTFM gjengir vedvarende og 3D-konsistente verdener, både virkelige og imaginære. Prøv vår demo av RTFM i dag!
Generative verdensmodeller vil uunngåelig være beregningsmessig krevende, og potensielt skalere utover kravene til dagens LLM-er. Men vi tror de er en avgjørende forskningsretning å utforske i fremtiden for gjengivelse og romlig intelligens.
RTFM bygger ikke en eksplisitt 3D-representasjon av verden. I stedet tar den ett eller flere 2D-bilder som input, og genererer direkte nye 2D-bilder av samme scene fra forskjellige synsvinkler.
RTFM kan sees på som en lært gjengivelse: det er en autoregressiv diffusjonstransformator trent ende-til-ende på storskala videodata, og den lærer å modellere 3D-geometri, refleksjoner, skygger og mer bare ved å observere dem i treningssettet.
RTFM kan også brukes til å rekonstruere virkelige steder fra sparsomt fangede fotografier. Dette er ikke ekte videoer: de er rammer generert av RTFM.
I en begrenset periode kan du prøve ut en live demo av RTFM selv, vert på sky-GPUer og streamet til enheten din (mobilstøtte inkludert!):
298,12K