Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hay mucha confusión en línea sobre lo que realmente es un entorno de RL. 
Es literalmente solo un punto de referencia. 
- Un entorno
- Un estado inicial
- Un verificador que verifica si un estado final es correcto o aceptable
El entorno es una pequeña caja de arena que le da al LLM la oportunidad de interactuar realmente: tomar medidas, ver resultados y afectar el mundo en el que se encuentra. En el caso de TerminalBench, es solo un contenedor Docker que emula una terminal de desarrollador real, completa con archivos, dependencias y herramientas del sistema que el modelo puede usar.
El estado inicial define lo que ve el modelo cuando comienza la tarea: las entradas, el contexto y las condiciones iniciales. En un punto de referencia de codificación, este podría ser el estado de un repositorio de Git cuando el usuario comenzó a trabajar: los archivos, el informe de errores, las pruebas fallidas y el mensaje de inicio del usuario que le dice al modelo lo que se debe hacer. Es la "configuración del problema", congelada en el tiempo, por lo que cada modelo comienza desde la misma posición y el resultado se puede comparar de manera justa.
Finalmente, el verificador es lo que hace que todo sea medible. Es la pieza que verifica si el modelo realmente resolvió la tarea: el juez automatizado que convierte los resultados desordenados en una simple puntuación o señal de aprobación / reprobación. 
Es por eso que escuchas a la gente en los laboratorios decir "nos capacitamos en verificadores". Están hablando de tener una forma automatizada de calificar el comportamiento del modelo. Esto se convierte en la función de recompensa para RL, o la señal de aprobación / falla para los puntos de referencia.

Populares
Ranking
Favoritas

