La 6 luni de la lansarea lucrării noastre, încă îmi amintesc dezbaterile privind eliminarea termenului de normalizare a lungimii în DrGRPO. Și oamenii cred treptat că DrGRPO este doar despre eliminarea bolii cu transmitere sexuală, ignorând cea mai importantă și subtilă prejudecată (lungime) pe care am încercat să o arătăm comunității. Chiar și acum, multe lucrări (și cod open-source) încă împart pierderea gradientului de politică la lungimea răspunsului - luând media în loc de sumă... Din fericire, cu implementarea Tinker ca referință, sper că va fi mai convingător pentru comunitatea OSS să adopte calculul imparțial al pierderii RL. Atât de recunoscător Thinking Machines pentru că a împins limitele științei 🚀 deschise