DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Eilen illalla opetin nanochat d32:lle, kuinka laskea r-kirjain mansikassa (tai vastaavissa muunnelmissa). Ajattelin, että tämä olisi hyvä/hauska esimerkki siitä, kuinka ominaisuuksia lisätään nanochatiin, ja kirjoitin täydellisen oppaan tänne: Tämä tehdään uudella synteettisellä tehtävällä "SpellingBee", joka luo esimerkkejä käyttäjästä, joka pyytää tällaista ongelmaa, ja ihanteellisen ratkaisun avustajalta. Sitten harjoittelemme/SFT:n hienosäätöä näihin LLM:n ominaisuuksien antamiseksi tai harjoittelemme edelleen RL:llä tehdäksemme siitä kestävämmän. On monia yksityiskohtia, jotka on saatava oikein erityisesti pienemmissä mallikooissa, ja opas käy ne läpi. Lyhyenä yleiskatsauksena: - Sinun on varmistettava monipuolisuus käyttäjien kehotteissa/kyselyissä - Erityisesti pienissä malleissa, kuten nanochatissa, sinun on oltava todella varovainen tokenisointitietojen kanssa, jotta LLM:n tehtävä olisi helppoa. Erityisesti sinun on oltava varovainen välilyöntien kanssa, ja sitten sinun on hajautettava päättelylaskelma moniin osittaisen ratkaisun merkkeihin: ensin standardoimme sanan lainausmerkkeihin, sitten kirjoitamme sen (merkkien hajottamiseksi), sitten iteroimme ja pidämme eksplisiittisen laskurin jne. - Kannustan mallia ratkaisemaan mallin kahdella eri tavalla: manuaalisella tavalla (päässään päässä) ja myös käyttämällä Python-tulkkia, johon nanochatilla on pääsy. Tämä on vähän "savua ja peilejä", koska jokainen ratkaisu atm on "puhdas", ilman virheitä. Tehtävää voidaan joko muokata simuloimaan virheitä ja havainnollistamaan palautumisia esimerkin avulla tai suorittaa RL. Todennäköisesti molempien yhdistelmä toimii parhaiten, kun edellinen toimii RL:n priorina ja antaa sille asioita, joiden kanssa työskennellä. Jos nanochat olisi paljon suurempi malli, odottaisit tai toivoisit, että tämä ominaisuus "ponnahtaa helpommin esiin" jossain vaiheessa. Mutta koska nanochat d32 "aivot" ovat ~mehiläisen kokoiset, jos haluamme sen laskevan r:t mansikassa, meidän on tehtävä se yliedustamalla sitä datassa, jotta malli oppisi sen aikaisemmin. Mutta se toimii! :)

Johtavat

Rankkaus

Suosikit