Het is eerlijk gezegd een beetje gek dat ik het snelste pixels naar beleid versterking leren trainingsframework ter wereld heb, met 100k driehoeken en 16k unieke meshes en 16k unieke werelden. Alles op een enkele 4090. 10 minuten voor eenvoudige taken
Er zijn een paar geweldige dingen aan. Zeer snelle queries over wereldattributen in relatie tot de posities van dingen, attributen zoals wat het dichtstbijzijnde oppervlak is. Geheugen explodeert niet, kan opschalen tot 100k unieke werelden in het geheugen als ik dat zou willen, door activa te bundelen. Live procedurele generatie
Plug-and-play-assets voor de wereld. Ik kan procedurieel mesh-werelden genereren met manifoldcad als ik dat wil, en blijf nieuwe werelden genereren tijdens de training. Veel beleidslijnen hebben moeite met onthouden, maar de mijne niet. Elke aflevering kan een nieuwe wereld zijn als ik dat wil.
Aangepaste renderingschema's om de training te versnellen. Ik kan foveated rendering doen zodat ik RL kan leren van een echte oogbal, die rond dart om te bepalen waar de agent is gepositioneerd. En het leert daadwerkelijk. 1m, 2m stappen per seconde. Met twee gpu's kan ik 12 experimenten in een uur uitvoeren.
Ik kan dieptewaarneming gratis krijgen dankzij mijn wereldmotor. Ik kan de modellering en fysica die ik wil maken door een pytorch-functie in te voegen die de bewerkingen over elke wereld batcht. *Omdat* ik zoveel experimenten kan uitvoeren met zulke extreme snelheden, en het zo configureerbaar is, leer ik zoveel.
Ik heb een model getraind om een appartement te verkennen met slechts DRIE dieptevragen. Was het gemakkelijk? Nee. Het kostte veel experimenten. Maar omdat ik 100 per dag kan uitvoeren, maak ik 100 keer zoveel vooruitgang. Ik heb ontdekt hoe ik het juuuuist moet vasthouden *omdat* mijn vooruitgang 100x sneller is dan die van jou.
Ik heb code die over elke hoek een grid search uitvoert en ik heb code die het gedrag van het beleid weergeeft en ik heb code die de statistieken op al deze uitvoert en een grafiek live bijwerkt zodat ik kan kijken en ik heb code die meerdere experimenten op mijn meerdere machines uitvoert
Ik werk hier in totaal al 2 maanden aan, onderbroken door hardware- en firmwarewerk. Mijn trainingsruns duurden vroeger 10 uur en nu duren ze 10 minuten. Ik denk niet dat je echt begrijpt wat dit betekent. 10 minuten
Mijn moeder schreef in de jaren '90 c++ voor transactionele banksoftware en haar compileertijden waren langer. Mijn hele trainingslus op procedureel gegenereerde GERENDERDE WERELDEN is sneller dan hoe lang het mijn moeder kostte om integratietests uit te voeren op database transactionele software
Ik heb mijn rendering-engine en mijn trainerintegratie (pufferlib-extensie specifiek voor alleen GPU-training, zodat mijn hele loop native op de GPU draait) en mijn software voor experimentatie / uitrolvisualisatie en mijn wereldgeneratiesoftware nu drie keer herschreven. Individueel.
De simpele, pure snelheid van mijn loop maakt een heleboel werk dat het zelfs niet waard was om te proberen, vandaag de moeite waard. Ik ga zoveel domme dingen doen die nog nooit eerder zijn gedaan. Mij werd verteld dat pixels een slecht idee waren omdat het traag was, maar elke software kan snel gemaakt worden. Het is zelfs niet zo moeilijk.
Ik denk niet dat jullie het begrijpen. Ik heb een beleid getraind dat NIETS ANDERS DAN PIXELS (!) GEBRUIKT DIE DE FYSICA KUNNEN BEHEREN met 4 controlekanalen die LITERALLY HERINNEREN welke kamers het al heeft bezocht en BOTSTINGEN VOORKOMT bij 20hz zonder STATUS. 900k parameters
Begrijp je het? Ik ga winnen. Niet een beetje. Niet door te doen wat iedereen doet. Maar door te doen wat niemand anders de ballen heeft om te doen. Gewoon doen wat voor de hand ligt, schijnbaar alleen voor mij. Ik ga winnen
@ChrisRemboldt (ja!)
26,64K