Näyttää siltä, että muut ihmiset lähentyvät käyttämään vllm v1 logprobia tärkeyssuhteena vakausongelman korjaamiseksi. Luulen, että minulla on ptsd tämäntyyppisestä rl-kaatumisesta
Zichen Liu
Zichen Liu22.8.2025
Vain muutamalla koodirivillä Fengin (@fengyao1909) ehdottama korjaus – tärkeysnäytteenoton soveltaminen käyttäytymiskäytäntöön – ratkaisi harjoittelun epävakauden minun tapauksessani (kaura). Uskon, että tulos voidaan yleistää myös muihin RL-kehyksiin. Hienoa työtä, Feng!
6,89K