DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Letzte Nacht habe ich nanochat d32 beigebracht, wie man 'r' in Erdbeere (oder ähnlichen Variationen) zählt. Ich dachte, das wäre ein gutes/unterhaltsames Beispiel dafür, wie man nanochat Fähigkeiten hinzufügen kann, und ich habe hier einen vollständigen Leitfaden geschrieben: Dies geschieht über eine neue synthetische Aufgabe `SpellingBee`, die Beispiele generiert, in denen ein Benutzer nach dieser Art von Problem fragt, und eine ideale Lösung von einem Assistenten. Wir trainieren dann mittelfristig/SFT nach, um dem LLM die Fähigkeit zu verleihen, oder trainieren weiter mit RL, um es robuster zu machen. Es gibt viele Details, die besonders bei kleineren Modellgrößen richtig gemacht werden müssen, und der Leitfaden führt durch diese. Als kurze Übersicht: - Sie müssen Vielfalt in den Benutzeraufforderungen/Anfragen sicherstellen. - Bei kleinen Modellen wie nanochat insbesondere müssen Sie sehr vorsichtig mit den Tokenisierungsdetails sein, um die Aufgabe für ein LLM einfach zu machen. Insbesondere müssen Sie auf Leerzeichen achten, und dann müssen Sie die Berechnung des Denkens über viele Token der teilweisen Lösung verteilen: Zuerst standardisieren wir das Wort in Anführungszeichen, dann buchstabieren wir es (um die Tokens aufzubrechen), dann iterieren wir und halten einen expliziten Zähler, usw. - Ich ermutige das Modell, das Problem auf zwei verschiedene Arten zu lösen: auf eine manuelle Weise (mentale Arithmetik im Kopf) und auch durch die Nutzung des Python-Interpreters, auf den nanochat Zugriff hat. Das ist ein bisschen "Rauch und Spiegel", weil jede Lösung momentan "sauber" ist, ohne Fehler. Man könnte entweder die Aufgabe anpassen, um Fehler zu simulieren und Wiederherstellungen durch Beispiele zu demonstrieren, oder RL durchführen. Höchstwahrscheinlich funktioniert eine Kombination aus beidem am besten, wobei das erste als Prior für das RL fungiert und ihm Dinge gibt, mit denen es arbeiten kann. Wenn nanochat ein viel größeres Modell wäre, würde man erwarten oder hoffen, dass diese Fähigkeit irgendwann leichter "herauskommt". Aber da das "Gehirn" von nanochat d32 die Größe einer ~Honigbiene hat, müssen wir, wenn wir wollen, dass es r's in Erdbeere zählt, dies tun, indem wir es in den Daten überrepräsentieren, um das Modell zu ermutigen, es früher zu lernen. Aber es funktioniert! :)

Top

Ranking

Favoriten