Przedstawiamy RTFM (Model Ramki w Czasie Rzeczywistym): wysoce wydajny Model Świata, który generuje klatki wideo w czasie rzeczywistym podczas interakcji z nim, zasilany przez pojedynczy procesor H100. RTFM renderuje trwałe i 3D spójne światy, zarówno rzeczywiste, jak i wyimaginowane. Wypróbuj naszą wersję demonstracyjną RTFM już dziś!
Generatywne modele świata będą nieuchronnie wymagające obliczeniowo, potencjalnie przekraczając nawet wymagania dzisiejszych LLM-ów. Uważamy jednak, że są one kluczowym kierunkiem badań do eksploracji w przyszłości renderowania i inteligencji przestrzennej.
RTFM nie buduje explicite 3D reprezentacji świata. Zamiast tego, przyjmuje jeden lub więcej obrazów 2D jako wejście i bezpośrednio generuje nowe obrazy 2D tej samej sceny z różnych punktów widzenia.
RTFM można postrzegać jako wyuczony renderer: jest to autoregresywny transformator dyfuzyjny trenowany end-to-end na dużych zbiorach danych wideo, który uczy się modelować geometrię 3D, odbicia, cienie i inne, po prostu obserwując je w swoim zbiorze treningowym.
RTFM może być również używane do rekonstrukcji rzeczywistych lokalizacji na podstawie rzadko uchwyconych fotografii. To nie są prawdziwe filmy: to klatki generowane przez RTFM.
Przez ograniczony czas możesz samodzielnie wypróbować na żywo demo RTFM, hostowane na chmurowych GPU i przesyłane na twoje urządzenie (wsparcie dla urządzeń mobilnych wliczone!).
305,69K