när folk inte vill använda chattkompletteringar för RL-lanseringar är jag så förvirrad bc som hur planerade du att dra slutsatser om modellen för något användbart efter att ha tränat den? Eller hade du inte tänkt göra det?
@ellev3n11 kompletteringar + apply_chat_template är i princip samma sak som vad inferensmotorer gör under huven ändå :) Jag tycker att det är ganska bekvämt att kunna bygga/utvärdera ENVS med godtyckliga API-modeller dock, chattkompletteringar effektiviserar det mycket
16,15K