Tendencias del momento
Es una locura que tenga el marco de entrenamiento de aprendizaje por refuerzo de píxeles a políticas más rápido del mundo, con 100k triángulos, 16k mallas únicas y 16k mundos únicos.
Todo en una sola 4090. 10 minutos en tareas fáciles
Hay algunas cosas geniales al respecto. Consultas muy rápidas sobre atributos del mundo en relación con las posiciones de las cosas, atributos como cuál es la superficie más cercana. La memoria no se desborda, puedo escalar hasta 100k mundos únicos en memoria si quisiera, agrupando activos. Generación procedural en vivo.
Activos plug and play para el mundo. Puedo generar mundos de malla de forma procedimental con manifoldcad si quiero, y seguir generando nuevos mundos durante el entrenamiento. Muchas políticas tienen dificultades para memorizar, pero la mía no. Cada episodio podría ser un nuevo mundo si así lo deseo.
Esquemas de renderizado personalizados para acelerar el entrenamiento. Puedo hacer renderizado foveado para que pueda aprender mediante RL un ojo real, que se mueve rápidamente para averiguar dónde está posicionado el agente. Y realmente aprende. 1m, 2m pasos por segundo. Con dos GPUs puedo ejecutar 12 experimentos en una hora
Puedo obtener percepción de profundidad de forma gratuita gracias a mi motor mundial. Puedo modelar y hacer la física que quiera inyectando una función de pytorch que agrupa las operaciones en todos los mundos. *Porque* puedo realizar tantos experimentos a velocidades tan extremas, y es tan configurable, estoy aprendiendo mucho.
He entrenado un modelo para explorar un apartamento con solo TRES consultas de profundidad. ¿Fue fácil? No. Tomó muchos experimentos. Pero como puedo hacer 100 al día, progreso 100 veces más rápido. He descubierto cómo sostenerlo juuuuust bien *porque* mi progreso es 100 veces más rápido que el tuyo
Tengo código que busca en cuadrícula sobre cada ángulo y tengo código que renderiza el comportamiento de la política y tengo código que ejecuta las estadísticas de todos ellos y actualiza en vivo un gráfico para que lo observe y tengo código que ejecuta múltiples experimentos en mis múltiples máquinas
He estado trabajando en esto durante 2 meses en total, interrumpido por trabajo de hardware y firmware. Mis entrenamientos solían tardar 10 horas y ahora tardan 10 minutos. No creo que realmente entiendas lo que esto significa. 10 minutos
Mi madre solía programar en c++ para software bancario transaccional en los años 90 y sus tiempos de compilación eran más largos. Todo mi bucle de entrenamiento en MUNDOS RENDERIZADOS generados proceduralmente es más rápido que el tiempo que le tomó a mi mamá ejecutar pruebas de integración en software transaccional de bases de datos
He reescrito mi motor de renderizado y mi integración de entrenador (extensión pufferlib específica para entrenamiento solo en GPU, así que todo mi bucle se ejecuta de forma nativa en GPU) y mi software de visualización de experimentación / despliegue y mi software de generación de mundos tres veces ya. Individualmente.
La simple velocidad de mi bucle hace que un montón de trabajo que ni siquiera valía la pena intentar, valga la pena hacerlo hoy. Voy a hacer tantas cosas estúpidas que nunca se han hecho antes
Me dijeron que los píxeles eran una mala idea porque era lento, pero cualquier software puede hacerse rápido. No es ni siquiera tan difícil.
No creo que ustedes entiendan. He entrenado una política que usa NADA MÁS QUE PIXELES (!) QUE PUEDEN MANEJAR FÍSICA con 4 canales de control que LITERALMENTE RECUERDA qué habitaciones ya ha visitado y EVITA COLISIONES a 20hz SIN ESTADO.
900k parámetros
¿Entiendes?
Voy a ganar.
No por poco. No haciendo lo que hace todo el mundo. Haciendo lo que nadie más tiene el valor de hacer. Simplemente haciendo lo que es obvio, aparentemente solo para mí.
Voy a ganar.

@ChrisRemboldt (¡sí!)
27,86K
Parte superior
Clasificación
Favoritos

