Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
C'est honnêtement un peu fou que j'ai le cadre d'apprentissage par renforcement de pixels à politique le plus rapide au monde, avec 100k triangles, 16k maillages uniques et 16k mondes uniques.
Tout cela sur un seul 4090. 10 minutes sur des tâches faciles
Il y a quelques grandes choses à propos de cela. Des requêtes très rapides sur les attributs du monde par rapport aux positions des choses, des attributs comme quelle est la surface la plus proche. La mémoire ne s'emballe pas, je peux monter jusqu'à 100 000 mondes uniques en mémoire si je le voulais, en regroupant les ressources. Génération procédurale en direct.
Des actifs plug-and-play pour le monde. Je peux générer des mondes en maillage de manière procédurale avec manifoldcad si je le souhaite, et continuer à générer de nouveaux mondes pendant l'entraînement. Beaucoup de politiques ont du mal à mémoriser, mais pas la mienne. Chaque épisode pourrait être un nouveau monde si je le souhaite.
Schémas de rendu personnalisés pour accélérer l'entraînement. Je peux faire du rendu fovéal afin de pouvoir apprendre par renforcement avec un véritable œil, qui se déplace pour déterminer où l'agent est positionné. Et ça apprend vraiment. 1m, 2m par seconde. Avec deux GPU, je peux réaliser 12 expériences en une heure.
Je peux obtenir une perception de la profondeur gratuitement grâce à mon moteur mondial. Je peux modéliser et appliquer la physique que je veux en injectant une fonction pytorch qui regroupe les opérations à travers chaque monde. *Parce que* je peux réaliser tant d'expériences à des vitesses aussi extrêmes, et que c'est si configurable, j'apprends tellement.
J'ai entraîné un modèle pour explorer un appartement avec seulement TROIS requêtes de profondeur. Était-ce facile ? Non. Cela a demandé beaucoup d'expérimentations. Mais comme je peux en exécuter 100 par jour, je fais 100 fois plus de progrès. J'ai compris comment le tenir juste comme il faut *parce que* mes progrès sont 100 fois plus rapides que les vôtres.
J'ai du code qui effectue une recherche exhaustive sur chaque angle et j'ai du code qui rend le comportement de la politique et j'ai du code qui exécute les statistiques sur tous et met à jour en direct un graphique que je peux observer et j'ai du code qui exécute plusieurs expériences sur mes multiples machines
J'ai essentiellement travaillé là-dessus pendant 2 mois au total, entrecoupés de travaux sur le matériel et le firmware. Mes sessions d'entraînement prenaient auparavant 10 heures et maintenant elles prennent 10 minutes. Je ne pense pas que vous compreniez vraiment ce que cela signifie. 10 minutes
Ma mère écrivait du c++ pour des logiciels bancaires transactionnels dans les années 90 et ses temps de compilation étaient plus longs. Mon entire training loop sur des MONDES RENDUS générés procéduralement est plus rapide que le temps qu'il fallait à ma mère pour exécuter des tests d'intégration sur des logiciels transactionnels de base de données.
J'ai réécrit mon moteur de rendu et mon intégration de formateur (extension pufferlib spécifique à l'entraînement uniquement sur GPU, donc ma boucle entière s'exécute nativement sur GPU) ainsi que mon logiciel de visualisation d'expérimentation / de déploiement et mon logiciel de génération de monde trois fois maintenant. Individuellement.
La simple vitesse de ma boucle rend un tas de travail qui ne valait même pas la peine d'être tenté, digne d'être fait aujourd'hui. Je vais faire tellement de choses stupides jamais faites auparavant
On m'a dit que les pixels étaient une mauvaise idée parce que c'était lent, mais n'importe quel logiciel peut être rendu rapide. Ce n'est même pas si difficile.
Je ne pense pas que vous compreniez. J'ai entraîné une politique qui utilise RIEN D'AUTRE QUE DES PIXELS (!) QUI PEUVENT GÉRER LA PHYSIQUE avec 4 canaux de contrôle qui SE SOUVIENNENT LITTÉRALEMENT des pièces qu'elle a déjà visitées et ÉVITE LES COLLISIONS à 20 Hz SANS ÉTAT.
900k paramètres
Comprends-tu ?
Je vais gagner.
Pas un peu. Pas en faisant ce que tout le monde fait. En faisant ce que personne d'autre n'a le courage de faire. Juste en faisant ce qui est évident, apparemment seulement pour moi.
Je vais gagner.

@ChrisRemboldt (oui!)
26,65K
Meilleurs
Classement
Favoris

