Apresentando o RTFM (Real-Time Frame Model): um modelo de mundo altamente eficiente que gera quadros de vídeo em tempo real à medida que você interage com ele, alimentado por uma única GPU H100. O RTFM renderiza mundos persistentes e consistentes em 3D, reais e imaginários. Experimente nossa demonstração de RTFM hoje!
Os Modelos de Mundo Generativo serão inevitavelmente exigentes computacionalmente, potencialmente escalando além dos requisitos dos LLMs de hoje. Mas acreditamos que eles são uma direção de pesquisa crucial a ser explorada no futuro da renderização e da inteligência espacial.
O RTFM não constrói uma representação 3D explícita do mundo. Em vez disso, ele usa uma ou mais imagens 2D como entrada e gera diretamente novas imagens 2D da mesma cena de diferentes pontos de vista.
O RTFM pode ser visto como um renderizador aprendido: é um transformador de difusão autorregressivo treinado de ponta a ponta em dados de vídeo em grande escala e aprende a modelar geometria 3D, reflexos, sombras e muito mais apenas observando-os em seu conjunto de treinamento.
O RTFM também pode ser usado para reconstruir locais do mundo real a partir de fotografias escassamente capturadas. Estes não são vídeos reais: são quadros gerados por RTFM.
Por um tempo limitado, você pode experimentar uma demonstração ao vivo do RTFM, hospedada em GPUs em nuvem e transmitida para o seu dispositivo (suporte móvel incluído!):
305,71K