DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Aseară am învățat nanochat d32 cum să numere "r" în căpșuni (sau variații similare). M-am gândit că acesta ar fi un exemplu bun/distractiv despre cum să adăugați capabilități la nanochat și am scris un ghid complet aici: Acest lucru se face printr-o nouă sarcină sintetică "SpellingBee" care generează exemple de utilizator care cere acest tip de problemă și o soluție ideală de la un asistent. Apoi reglam fin pe acestea pentru a înzestra LLM cu capacitatea sau ne antrenăm în continuare cu RL pentru a-l face mai robust. Există multe detalii de obținut corect, mai ales la dimensiuni mai mici ale modelelor, iar ghidul le parcurge. Ca o scurtă prezentare generală: - Trebuie să asigurați diversitatea solicitărilor/interogărilor utilizatorilor - Pentru modelele mici, cum ar fi nanochat, trebuie să fii foarte atent cu detaliile de tokenizare pentru a ușura sarcina unui LLM. În special, trebuie să fii atent la spațiile albe, apoi trebuie să împrăștii calculul raționamentului pe mai multe jetoane de soluție parțială: mai întâi standardizăm cuvântul între ghilimele, apoi îl scriem (pentru a împărți tokenurile), apoi iterăm și păstrăm un contor explicit etc. - Încurajez modelul să rezolve modelul în două moduri separate: manual (aritmetică mentală în cap) și, de asemenea, prin utilizarea instrumentului interpretorului Python la care nanochat are acces. Acesta este un pic "fum și oglinzi" pentru că fiecare soluție atm este "curată", fără greșeli. S-ar putea fie să ajustăm sarcina pentru a simula greșelile și să demonstreze recuperările prin exemplu, fie să ruleze RL. Cel mai probabil, o combinație a ambelor funcționează cel mai bine, în care primul acționează ca prior pentru RL și îi oferă lucruri cu care să lucreze. Dacă nanochat ar fi un model mult mai mare, te-ai aștepta sau te-ai aștepta ca această capacitate să "iasă" mai ușor la un moment dat. Dar pentru că "creierul" nanochat d32 este de dimensiunea unei ~albine, dacă vrem să numere r în căpșuni, trebuie să o facem suprareprezentând în date, pentru a încuraja modelul să o învețe mai devreme. Dar funcționează! :)

Limită superioară

Clasament

Favorite