Taruhannya adalah membangun sistem pembelajaran berkelanjutan. Apa artinya ini? Pembaruan Cursor adalah contoh yang berfungsi. Data baru masuk, sistem tahu cara menyaring sampel yang paling berharga. Kemudian memanfaatkan RL/algoritme lain untuk menyebarkan pos pemeriksaan yang dilatih menggunakan data tersebut.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 Agu 2025
Kami memperkenalkan resep yang lebih baik untuk mengumpulkan data pasca-pelatihan saat menggunakan GRPO. Mengumpulkan sampel dari para ahli mahal, anggaran anotasi terbatas. Contoh mana yang benar-benar layak dibayar? Kami menemukan bahwa berfokus pada sampel keras menghasilkan peningkatan 30-40%. 1/7
Setiap komponen harus dipelajari dengan cermat terlebih dahulu untuk membangun meta-algoritma yang dapat mengoperasikan sistem seperti itu. Selama lari pelatihan, ia dapat mengevaluasi apakah akan melanjutkan atau menghentikan lari berdasarkan tanda-tanda awal. Untuk melakukan ini, wawasan dari 100-an eksekusi dicerna ke dalam sistem semacam itu.
Bidang pekerjaan ini memulai proses ini untuk masalah penalaran dengan hadiah yang dapat diverifikasi. Karena ini adalah pengaturan yang paling "stabil" untuk membangun alur sederhana untuk pembelajaran. Perbatasan berikutnya adalah LLM-sebagai-hakim dan pengaturan hadiah yang tertunda dan jangka panjang.
1,01K