quando as pessoas não querem usar as conclusões de chat para as execuções de RL, fico tão confuso porque, tipo, como você estava planejando inferir o modelo para algo útil depois de treiná-lo? ou você não estava planejando fazer isso?
@ellev3n11 as conclusões + apply_chat_template é basicamente a mesma coisa que o que os motores de inferência fazem nos bastidores de qualquer forma :) eu acho bastante conveniente poder construir/avaliar ambientes com modelos de API arbitrários, no entanto, as conclusões de chat simplificam muito isso.
16,16K