介紹RTFM(實時框架模型):一個高效的世界模型,能夠在您與之互動時實時生成視頻幀,僅需一個H100 GPU。 RTFM渲染持久且3D一致的世界,無論是真實的還是虛構的。 今天就來試試我們的RTFM演示!
生成世界模型將不可避免地需要大量計算,可能超出當前大型語言模型的需求。但我們相信,這是未來渲染和空間智能研究中一個至關重要的方向。
RTFM 並不會建立世界的明確 3D 表示。相反,它接受一個或多個 2D 圖像作為輸入,並直接從不同的視角生成相同場景的新 2D 圖像。
RTFM 可以被視為一個學習的渲染器:它是一個自回歸擴散變壓器,經過端到端的訓練,基於大規模視頻數據,並且它通過觀察訓練集中的 3D 幾何形狀、反射、陰影等來學習建模。
RTFM 也可以用來從稀疏捕捉的照片中重建現實世界的位置。 這些不是實際的視頻:它們是由 RTFM 生成的幀。
在有限的時間內,您可以親自試用 RTFM 的現場演示,該演示托管在雲端 GPU 上並串流到您的設備(包括移動設備支持!):
298.11K