cuando la gente no quiere usar las completaciones de chat para los rollouts de RL, estoy tan confundido porque, ¿cómo pensabas inferir el modelo para algo útil después de entrenarlo? ¿O no pensabas hacer eso?
@ellev3n11 completions + apply_chat_template es básicamente lo mismo que lo que hacen los motores de inferencia en el fondo :) sin embargo, me parece bastante conveniente poder construir/evaluar entornos con modelos de API arbitrarios, aunque las completaciones de chat simplifican mucho eso.
16,37K