Vă prezentăm RTFM (Real-Time Frame Model): un model mondial extrem de eficient care generează cadre video în timp real pe măsură ce interacționați cu el, alimentat de un singur GPU H100. RTFM redă lumi persistente și 3D consistente, atât reale, cât și imaginare. Încercați demo-ul nostru de RTFM astăzi!
Modelele lumii generative vor fi inevitabil solicitante din punct de vedere computațional, potențial extinzându-se chiar și dincolo de cerințele LLM-urilor de astăzi. Dar credem că sunt o direcție de cercetare crucială de explorat în viitor a redării și a inteligenței spațiale.
RTFM nu construiește o reprezentare 3D explicită a lumii. În schimb, ia una sau mai multe imagini 2D ca intrare și generează direct noi imagini 2D ale aceleiași scene din diferite puncte de vedere.
RTFM poate fi văzut ca un render învățat: este un transformator de difuzie autoregresiv antrenat de la un capăt la altul pe date video la scară largă și învață să modeleze geometria 3D, reflexii, umbre și multe altele doar observându-le în setul său de antrenament.
RTFM poate fi, de asemenea, folosit pentru a reconstrui locații din lumea reală din fotografii slab capturate. Acestea nu sunt videoclipuri reale: sunt cadre generate de RTFM.
Pentru o perioadă limitată de timp, puteți încerca singur o demonstrație live a RTFM, găzduită pe GPU-uri cloud și transmisă pe dispozitiv (suport mobil inclus!):
280,69K