Wenn die Leute keine Chat-Vervollständigungen für RL-Rollouts verwenden wollen, bin ich so verwirrt, denn wie wolltest du das Modell nach dem Training für irgendetwas Nützliches inferenzieren? Oder hattest du nicht vor, das zu tun?
@ellev3n11 Completions + apply_chat_template ist im Grunde dasselbe, was Inferenz-Engines im Hintergrund tun :) Ich finde es ziemlich praktisch, in der Lage zu sein, Umgebungen mit beliebigen API-Modellen zu erstellen/bewerten, aber Chat-Completions vereinfacht das erheblich.
16,17K