Ось Ritual Research Digest цього тижня, інформаційний бюлетень, який висвітлює найновіші новини у світі LLM та перетин Crypto x AI. З сотнями газет, що публікуються щотижня, залишатися в курсі останніх неможливо. Ми читаємо, щоб вам не доводилося цього робити.
Не всі біти однакові: залежні від масштабу стратегії оптимізації пам'яті для моделей міркувань Авторами досліджено принципи стиснення пам'яті для моделей міркувань. Вони враховують розмір моделі, точність, довжину покоління та стиснення кешу KV.
Вони запитують: який баланс факторів забезпечує максимальну точність у завданнях на міркування? Понад 1700 експериментів на сімействі Qwen3 на AIME та GPQA-Diamond. Вони вважають, що універсальної стратегії не існує, але у них є рекомендації щодо конкретного розміру.
Мистецтво масштабування обчислень навчання з підкріпленням для LLM Ця робота досліджує науку масштабування RL і розробляє ScaleRL, рецепт, який передбачувано масштабується за допомогою обчислень. Дизайн ґрунтується на емпіричному дослідженні масштабування RL понад 400 000 GPU-годин.
Вони знаходять три ключові принципи: • Стелі RL Performance не є універсальними • Гіркий урок стосується і РЛ • Загальні втручання, які, як вважається, спрямовані на підвищення пікової продуктивності, в основному коригують ефективність обчислень, при цьому не змінюючи стелю продуктивності значно.
LLM можуть отримати «мозкову гниль»! У цій статті досліджується, чи можуть LLM викликати гниття мозку, тобто, якщо вони тренуються на небажаному веб-тексті, чи має він тривалий когнітивний спад у LLM? Вони експериментують, конструюючи набори даних із соціальних мереж (Twitter/X) за допомогою двох сміттєвих показників.
Порівняльний порівняльний аналіз між чистими та сміттєвими наборами даних показує, що втручання у сміттєве сміття пов'язане зі зниженням когнітивних функцій у міркуваннях, довгому контексті та етичних нормах. Темні особистості LLM проявляються з втручанням сміття М1, що викликає серйозні занепокоєння щодо безпеки.
Не викидайте вже підготовлену модель Alignment/RL став невід'ємною частиною навчання LLM, але має кілька недоліків, з якими чудово справляються попередньо навчені базові моделі. У цій статті розглядається, як використовувати переваги обох світів і розробляти адаптивні системи штучного інтелекту.
Вони пропонують Switch Generation, де для генерації динамічно вибирається кілька контрольних точок моделі. Експерименти з 8 базовими лініями співпраці та 18 наборами даних демонструють, що модельні підходи до співпраці перевершують усі окремі моделі на 16 із 18 наборів даних.
Як навчання з підкріпленням після прогнозування наступних токенів полегшує навчання У статті досліджується, як авторегресійні моделі досягають успіху у вирішенні складних завдань прогнозування, дотримуючись цього рецепту навчання (прогнозування наступного токена з подальшим навчанням з підкріпленням).
Для експериментів вони припускають, що дані передтренувальної підготовки містять рідкісні демонстрації для завдання, що цікавить. Виходячи з цього, вони пояснюють: - Труднощі узагальнення під час передтренувальної підготовки - Як РЛ призводить до швидкого поліпшення - Що призводить до більш тривалих реакцій?
Слідкуйте за нами @ritualdigest, щоб дізнатися більше про все, що стосується досліджень crypto x AI, а також @ritualnet дізнатися більше про те, що будує Ritual.
575