Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I går kveld lærte jeg nanochat d32 hvordan man teller 'r' i jordbær (eller lignende varianter). Jeg tenkte dette ville være et godt/morsomt eksempel på hvordan du legger til funksjoner til nanochat, og jeg skrev en fullstendig guide her:
Dette gjøres via en ny syntetisk oppgave 'SpellingBee' som genererer eksempler på en bruker som ber om denne typen problemer, og en ideell løsning fra en assistent. Vi midtrain/SFT finjusterer deretter på disse for å gi LLM kapasiteten, eller trener videre med RL for å gjøre den mer robust. Det er mange detaljer å få riktig, spesielt ved mindre modellstørrelser, og guiden går gjennom dem. Som en kort oversikt:
- Du må sikre mangfold i brukerforespørsler/spørsmål
- Spesielt for små modeller som nanochat, må du være veldig forsiktig med tokeniseringsdetaljene for å gjøre oppgaven enkel for en LLM. Spesielt må du være forsiktig med mellomrom, og så må du spre resonnementberegningen over mange tokens av delvis løsning: først standardiserer vi ordet i anførselstegn, så staver vi det ut (for å bryte opp tokens), så itererer vi og beholder en eksplisitt teller, etc.
- Jeg oppfordrer modellen til å løse modellen på to separate måter: en manuell måte (hoderegning i hodet) og også via verktøybruk av Python-tolken som nanochat har tilgang til. Dette er litt "røyk og speil" fordi hver løsning minibank er "ren", uten feil. Man kan enten justere oppgaven for å simulere feil og demonstrere gjenoppretting ved eksempel, eller kjøre RL. Mest sannsynlig fungerer en kombinasjon av begge best, der førstnevnte fungerer som prior for RL og gir den ting å jobbe med.
Hvis nanochat var en mye større modell, ville du forvente eller håpe på at denne muligheten lettere ville "dukke opp" på et tidspunkt. Men fordi nanochat d32 "hjerne" er på størrelse med en ~honningbi, hvis vi vil at den skal telle r-er i jordbær, må vi gjøre det ved å overrepresentere den i dataene, for å oppmuntre modellen til å lære det tidligere. Men det fungerer! :)

Topp
Rangering
Favoritter

