Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Вчора ввечері я навчив nanochat d32 рахувати 'r' у полуниці (або подібних варіаціях). Я подумав, що це буде хорошим/цікавим прикладом того, як додати можливості до наночату, і я написав повний посібник тут: Це робиться за допомогою нового синтетичного завдання «SpellingBee», яке генерує приклади користувачів, які просять про такого роду проблеми, і ідеальне рішення від помічника. Потім ми вдосконалюємо їх midtrain/SFT, щоб наділити LLM можливостями, або продовжуємо тренуватися з RL, щоб зробити його більш надійним. Є багато деталей, які потрібно виправити, особливо при невеликих розмірах моделей, і керівництво проходить через них. В якості короткого огляду: - Ви повинні забезпечити різноманітність підказок/запитів користувачів - Особливо для невеликих моделей, таких як наночат, ви повинні бути дуже обережні з деталями токенізації, щоб полегшити завдання для LLM. Зокрема, вам потрібно бути обережним з пробілами, а потім вам доведеться розподілити обчислення міркувань на багато лексем часткового рішення: спочатку ми стандартизуємо слово в лапки, потім ми вимовляємо його (щоб розбити лексеми), потім ми перебираємо та зберігаємо явний лічильник тощо. - Я заохочую модель розв'язувати модель двома окремими способами: ручним способом (ментальна арифметика в голові), а також за допомогою інструментального використання інтерпретатора Python, до якого має доступ наночат. Це трохи «дим і дзеркала», тому що кожне рішення банкомат «чистий», без помилок. Можна було або коригувати завдання, щоб імітувати помилки та демонструвати відновлення на прикладі, або запускати РЛ. Швидше за все, найкраще працює комбінація обох, де перший виступає в ролі пріора для РЛ і дає йому можливості для роботи. Якби наночат був набагато більшою моделлю, ви б очікували або сподівалися, що ця можливість легше «вискочить» у якийсь момент. Але оскільки "мозок" nanochat d32 розміром з ~медоносну бджолу, якщо ми хочемо, щоб він рахував r у полуниці, ми повинні зробити це, надмірно представляючи це в даних, щоб заохотити модель вивчити це раніше. Але це працює! :)

Найкращі

Рейтинг

Вибране