Sejujurnya agak gila bahwa saya memiliki piksel tercepat untuk kerangka pelatihan pembelajaran penguatan kebijakan di seluruh dunia, pada 100k segitiga dan 16k mesh unik dan 16k dunia unik. Semua pada satu 4090. 10 menit untuk tugas mudah
Ada beberapa hal hebat tentang itu. Kueri yang sangat cepat tentang atribut dunia relatif terhadap posisi benda, atribut seperti apa permukaan terdekat. Memori tidak meledak, dapat menskalakan hingga 100 ribu dunia unik dalam memori jika saya mau, dengan mengumpulkan aset. Gen prosedural langsung
Plug and play aset untuk dunia. Saya dapat secara prosedural menghasilkan dunia mesh dengan manifoldcad jika saya mau, dan terus menghasilkan dunia baru selama pelatihan. Banyak kebijakan berjuang dengan menghafal tetapi bukan milik saya. Setiap episode bisa menjadi dunia baru jika saya menginginkannya
Skema rendering khusus untuk mempercepat pelatihan. Saya dapat melakukan rendering foveated sehingga saya dapat mempelajari bola mata yang sebenarnya, yang melesat untuk mencari tahu di mana agen diposisikan. Dan itu benar-benar belajar. 1m, 2m langkah per detik. Dengan dua gpu saya dapat menjalankan 12 eksperimen dalam satu jam
Saya bisa mendapatkan persepsi kedalaman secara gratis karena mesin dunia saya. Saya dapat memodelkan dan fisika yang saya inginkan dengan menyuntikkan fungsi pytorch yang mengelompokkan operasi di setiap dunia. *Karena* Saya dapat menjalankan begitu banyak eksperimen dengan kecepatan ekstrem seperti itu, dan itu sangat dapat dikonfigurasi, saya belajar banyak
Saya telah melatih seorang model untuk menjelajahi apartemen dengan hanya TIGA kueri kedalaman. Apakah itu mudah? Tidak. Butuh banyak eksperimen. Tetapi karena saya bisa berlari 100 sehari, saya membuat kemajuan 100 kali lipat. Saya telah menemukan cara menahannya dengan benar *karena* kemajuan saya 100x lebih cepat dari Anda
Saya memiliki kode yang dicari kisi di setiap sudut dan saya memiliki kode yang merender perilaku kebijakan dan saya memiliki kode yang menjalankan statistik pada semuanya dan memperbarui grafik secara langsung untuk saya tonton dan saya memiliki kode yang menjalankan beberapa eksperimen di beberapa mesin saya
Saya pada dasarnya telah mengerjakan ini selama 2 bulan secara agregat, dilubangi oleh pekerjaan perangkat keras dan firmware. Latihan saya dulu memakan waktu 10 jam dan sekarang memakan waktu 10 menit. Saya rasa Anda tidak benar-benar mengerti apa artinya ini. 10 menit
Ibu saya biasa menulis c++ untuk perangkat lunak bank transaksional di tahun 90-an dan waktu kompilasinya lebih lama. Seluruh loop pelatihan saya pada RENDERED WORLDS yang dihasilkan secara prosedural lebih cepat daripada berapa lama waktu yang dibutuhkan ibu saya untuk menjalankan tes integrasi pada perangkat lunak transaksional database
Saya telah menulis ulang mesin rendering saya dan integrasi pelatih saya (ekstensi pufferlib khusus untuk pelatihan GPU saja, jadi seluruh loop saya berjalan secara asli di GPU) dan perangkat lunak visualisasi eksperimen / peluncuran saya dan perangkat lunak generasi dunia saya tiga kali sekarang. Secara individual.
Kecepatan sederhana dari putaran saya membuat banyak pekerjaan yang bahkan tidak layak dicoba untuk dilakukan hari ini. Saya akan melakukan begitu banyak omong kosong bodoh yang belum pernah dilakukan sebelumnya Saya diberitahu bahwa piksel adalah ide yang buruk karena lambat tetapi perangkat lunak apa pun dapat dibuat dengan cepat. Bahkan tidak terlalu sulit.
Saya tidak berpikir kalian mengerti. Saya telah melatih kebijakan yang menggunakan NOTHING BUT PIXELS (!) YANG DAPAT MENGELOLA FISIKA dengan 4 saluran kontrol yang BENAR-BENAR MENGINGAT ruangan mana yang telah dikunjungi dan HINDARI TABRAKAN pada 20hz tanpa STATUS. Parameter 900k
Kamu mengerti? Saya akan menang. Tidak sedikit. Bukan dengan melakukan apa yang dilakukan orang lain. Dengan melakukan apa yang tidak ada orang lain yang bisa melakukannya. Hanya melakukan hal yang jelas, tampaknya hanya bagi saya Saya akan menang
@ChrisRemboldt (ya!)
24,23K