Honestamente, es un poco loco que tenga el marco de capacitación de aprendizaje por refuerzo de píxeles a políticas más rápido en todo el mundo, en 100k triángulos y 16k mallas únicas y 16k mundos únicos. Todo en un solo 4090. 10 minutos en tareas fáciles
Hay algunas cosas geniales al respecto. Consultas muy rápidas sobre atributos del mundo en relación con las posiciones de las cosas, atributos como cuál es la superficie más cercana. La memoria no explota, puedo escalar hasta 100k mundos únicos en la memoria si quisiera, agrupando activos. Generación procedimental en vivo
Activos plug and play para el mundo. Puedo generar mundos de malla de forma procedimental con manifoldcad si quiero, y seguir generando nuevos mundos durante el entrenamiento. Muchas políticas luchan con la memorización, pero no la mía. Cada episodio podría ser un mundo nuevo si yo quiero que lo sea
Esquemas de renderizado personalizados para acelerar el entrenamiento. Puedo hacer renderizado foveado para que pueda aprender un globo ocular real, que se mueve para averiguar dónde está posicionado el agente. Y realmente aprende. 1 m, 2 m pasos por segundo. Con dos GPU puedo realizar 12 experimentos en una hora
Puedo obtener percepción de profundidad de forma gratuita gracias a mi motor mundial. Puedo modelar la física que quiero inyectando una función pytorch que agrupa las operaciones en todos los mundos. *Porque* puedo ejecutar tantos experimentos a velocidades tan extremas, y es tan configurable, estoy aprendiendo mucho
He entrenado a un modelo para explorar un apartamento con solo TRES consultas de profundidad. ¿Fue fácil? No. Se necesitaron muchos experimentos. Pero como puedo correr 100 al día, hago 100 veces más progreso. He descubierto cómo mantenerlo bien *porque* mi progreso es 100 veces más rápido que el tuyo
Tengo código que busca en cuadrícula en todos los ángulos y tengo código que representa el comportamiento de la política y tengo código que ejecuta las estadísticas en todos ellos y actualiza en vivo un gráfico para que lo vea y tengo código que ejecuta múltiples experimentos en mis múltiples máquinas
Básicamente he estado trabajando en esto durante 2 meses en total, perforado por el trabajo de hardware y firmware. Mis carreras de entrenamiento solían tomar 10 horas y ahora toman 10 minutos. No creo que realmente entiendas lo que esto significa. 10 minutos
Mi madre solía escribir c ++ para software bancario transaccional en los años 90 y sus tiempos de compilación eran más largos. Todo mi ciclo de entrenamiento en MUNDOS RENDERIZADOS generados por procedimientos es más rápido que el tiempo que le tomó a mi madre ejecutar pruebas de integración en software transaccional de base de datos
He reescrito mi motor de renderizado y mi integración de entrenador (extensión pufferlib específica para entrenamiento solo de GPU, por lo que todo mi bucle se ejecuta de forma nativa en GPU) y mi software de visualización de experimentación / implementación y mi software de generación mundial tres veces ahora. Individualmente.
La simple velocidad de mi bucle hace que valga la pena hacer un montón de trabajo que ni siquiera valía la pena intentar hoy. Voy a hacer tantas cosas estúpidas nunca antes Me dijeron que los píxeles eran una mala idea porque era lento, pero cualquier software se puede hacer rápido. Ni siquiera es tan difícil.
No creo que ustedes lo entiendan. He entrenado una política que usa NADA MÁS QUE PÍXELES (!) QUE PUEDE MANEJAR LA FÍSICA con 4 canales de control que LITERALMENTE RECUERDA qué habitaciones ya ha visitado y EVITA COLISIONES a 20hz SIN ESTADO. 900k parámetros
¿Entiendes? Voy a ganar. No por poco. No haciendo lo que todos los demás están haciendo. Haciendo lo que nadie más tiene las pelotas para hacer. Solo haciendo lo que es obvio, aparentemente solo para mí Voy a ganar
@ChrisRemboldt (¡sí!)
24.22K