Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Igår kväll lärde jag nanochat d32 hur man räknar 'r' i jordgubbar (eller liknande varianter). Jag tänkte att detta skulle vara ett bra/roligt exempel på hur man lägger till funktioner i nanochat och jag skrev upp en fullständig guide här:
Detta görs via en ny syntetisk uppgift 'SpellingBee' som genererar exempel på en användare som ber om denna typ av problem, och en idealisk lösning från en assistent. Vi finjusterar sedan midtrain/SFT på dessa för att ge LLM kapaciteten, eller tränar ytterligare med RL för att göra den mer robust. Det finns många detaljer att få rätt, särskilt vid mindre modellstorlekar, och guiden går igenom dem. Som en kort översikt:
- Du måste se till att det finns en mångfald i användarnas uppmaningar/frågor
- Särskilt för små modeller som nanochat måste du vara riktigt försiktig med tokeniseringsdetaljerna för att göra uppgiften enkel för en LLM. I synnerhet måste du vara försiktig med blanksteg, och sedan måste du sprida resonemangsberäkningen över många symboler för partiell lösning: först standardiserar vi ordet till citattecken, sedan stavar vi ut det (för att dela upp tokens), sedan itererar vi och behåller en explicit räknare, etc.
- Jag uppmuntrar modellen att lösa modellen på två olika sätt: på ett manuellt sätt (huvudräkning i huvudet) och även via verktygsanvändning av Python-tolken som nanochat har tillgång till. Detta är lite "rök och speglar" eftersom varje lösning uttagsautomat är "ren", utan misstag. Man kan antingen justera uppgiften för att simulera misstag och demonstrera återställningar genom exempel, eller köra RL. Troligtvis fungerar en kombination av båda bäst, där den förstnämnda fungerar som föregångare för RL och ger den saker att arbeta med.
Om nanochat var en mycket större modell skulle du förvänta dig eller hoppas på att den här funktionen lättare skulle "poppa ut" någon gång. Men eftersom nanochat d32 "hjärna" är lika stor som ett ~honungsbi, om vi vill att den ska räkna r i jordgubbar, måste vi göra det genom att överrepresentera den i data, för att uppmuntra modellen att lära sig det tidigare. Men det fungerar! :)

Topp
Rankning
Favoriter

