Представляємо RTFM (Real-Time Frame Model): високоефективну модель світу, яка генерує відеокадри в режимі реального часу під час взаємодії з нею та працює від одного графічного процесора H100. RTFM відтворює постійні та 3D-узгоджені світи, як реальні, так і уявні. Спробуйте нашу демо-версію RTFM вже сьогодні!
Генеративні моделі світу неминуче будуть вимогливими до обчислень, потенційно масштабуючись навіть за межами вимог сучасних LLM. Але ми вважаємо, що вони є важливим напрямком досліджень для вивчення в майбутньому рендерингу та просторового інтелекту.
RTFM не будує чітке 3D-представлення світу. Замість цього він приймає одне або кілька 2D-зображень як вхідні дані та безпосередньо генерує нові 2D-зображення тієї ж сцени з різних точок зору.
RTFM можна розглядати як навчений рендерер: це авторегресійний дифузійний трансформатор, навчений наскрізний на великомасштабних відеоданих, і він вчиться моделювати 3D-геометрію, відображення, тіні та багато іншого, просто спостерігаючи за ними у своєму навчальному наборі.
RTFM також може бути використаний для реконструкції реальних місць на основі рідко зроблених фотографій. Це не справжні відео: це кадри, згенеровані RTFM.
Протягом обмеженого часу ви можете самостійно спробувати демонстрацію RTFM у реальному часі, розміщену на хмарних графічних процесорах і потокову на свій пристрій (підтримка мобільних пристроїв включена!):
298,12K