Je to upřímně trochu šílené, že mám nejrychlejší rámec pro školení posilování politiky na celém světě, se 100 tisíci trojúhelníky a 16 tisíci unikátními sítěmi a 16 tisíci unikátními světy. To vše na jediném 4090. 10 minut na snadné úkoly
Je na tom několik skvělých věcí. Velmi rychlé dotazy na atributy světa ve vztahu k pozicím věcí, atributy jako jaký je nejbližší povrch. Paměť nevybuchne, mohu škálovat až na 100 tisíc jedinečných světů v paměti, pokud bych chtěl, sdružováním aktiv. Živá procedurální generace
Plug and play aktiva pro celý svět. Pokud chci, mohu procedurálně generovat mesh světy pomocí manifoldcadu a během tréninku pokračovat ve vytváření nových světů. Spousta pravidel bojuje se zapamatováním, ale ne moje. Každá epizoda by mohla být novým světem, pokud bych chtěla, aby to tak bylo
Vlastní schémata vykreslování pro urychlení školení. Můžu dělat foveated rendering, abych se mohl RL naučit skutečnou oční bulvu, která se vrhá kolem, aby zjistila, kde je agent umístěn. A skutečně se učí. 1 m, 2 m kroků za sekundu. Se dvěma gpu dokážu provést 12 experimentů za hodinu
Vnímání hloubky mohu získat zdarma díky svému světovému enginu. Mohu modelovat a fyziku chci, a to injekcí funkce pytorch, která dávková operace po celém světě. *Protože* mohu provádět tolik experimentů při tak extrémních rychlostech a je to tak konfigurovatelné, tolik se učím
Vytrénoval jsem model k prozkoumání bytu pouze se TŘEMI hloubkovými dotazy. Bylo to snadné? Ne. Stálo to spoustu experimentů. Ale protože dokážu uběhnout 100 za den, udělám 100krát větší pokrok. Přišel jsem na to, jak to držet juuuuust správně *protože* můj pokrok je 100x rychlejší než váš
Mám kód, který mřížku prohledává ze všech úhlů a mám kód, který vykresluje chování zásad a mám kód, který spouští statistiky na všech z nich a živě aktualizuje graf, který mohu sledovat, a mám kód, který spouští několik experimentů na více počítačích
V podstatě jsem na tom pracoval 2 měsíce v souhrnu, perforované prací na hardwaru a firmwaru. Dříve jsem trénoval běhy 10 hodin a nyní trvají 10 minut. Nemyslím si, že opravdu chápete, co to znamená. 10 minut
Moje matka psala v 90. letech c++ pro transakční bankovní software a její kompilace byly delší. Celá moje trénovací smyčka na procedurálně generovaných RENDERED WORLDS je rychlejší než to, jak dlouho trvalo mé mámě spustit integrační testy na databázovém transakčním softwaru
Přepsal jsem svůj vykreslovací engine a integraci mého trenéra (rozšíření pufferlib specifické pouze pro trénování GPU, takže celá moje smyčka běží nativně na GPU) a můj software pro experimentování / vizualizaci a můj software pro světovou generaci již třikrát. Individuálně.
Jednoduchá rychlost mé smyčky způsobuje, že dnes stojí za to dělat spoustu práce, o kterou by se ani nestálo za pokus. Udělám tolik hloupých sraček, které jsem nikdy předtím neudělal Bylo mi řečeno, že pixely jsou špatný nápad, protože jsou pomalé, ale každý software může být vytvořen rychle. Není to ani tak těžké.
Nemyslím si, že to chápete. Vytrénoval jsem politiku, která používá NIC NEŽ PIXELY (!) KTERÝ DOKÁŽE ŘÍDIT FYZIKU se 4 ovládacími kanály, které si doslovně pamatují, které místnosti již navštívil, a VYHÝBAJÍ se KOLIZÍM při 20 Hz bez STAVU. 900k parametrů
Chápeš? Vyhraju. Ne o málo. Ne tím, že budeme dělat to, co dělají všichni ostatní. Tím, že dělají to, na co nikdo jiný nemá koule. Prostě dělám to, co je zřejmé, zdánlivě jen pro mě Jdu vyhrát
@ChrisRemboldt (ano!)
20,59K