Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ось Ritual Research Digest цього тижня, інформаційний бюлетень, який висвітлює найновіші новини у світі LLM та перетин Crypto x AI. З сотнями газет, що публікуються щотижня, залишатися в курсі останніх неможливо. Ми читаємо, щоб вам не доводилося цього робити.

Не всі біти однакові: залежні від масштабу стратегії оптимізації пам'яті для моделей міркувань Авторами досліджено принципи стиснення пам'яті для моделей міркувань. Вони враховують розмір моделі, точність, довжину покоління та стиснення кешу KV.

Вони запитують: який баланс факторів забезпечує максимальну точність у завданнях на міркування? Понад 1700 експериментів на сімействі Qwen3 на AIME та GPQA-Diamond. Вони вважають, що універсальної стратегії не існує, але у них є рекомендації щодо конкретного розміру.

Мистецтво масштабування обчислень навчання з підкріпленням для LLM Ця робота досліджує науку масштабування RL і розробляє ScaleRL, рецепт, який передбачувано масштабується за допомогою обчислень. Дизайн ґрунтується на емпіричному дослідженні масштабування RL понад 400 000 GPU-годин.

Вони знаходять три ключові принципи: • Стелі RL Performance не є універсальними • Гіркий урок стосується і РЛ • Загальні втручання, які, як вважається, спрямовані на підвищення пікової продуктивності, в основному коригують ефективність обчислень, при цьому не змінюючи стелю продуктивності значно.

LLM можуть отримати «мозкову гниль»! У цій статті досліджується, чи можуть LLM викликати гниття мозку, тобто, якщо вони тренуються на небажаному веб-тексті, чи має він тривалий когнітивний спад у LLM? Вони експериментують, конструюючи набори даних із соціальних мереж (Twitter/X) за допомогою двох сміттєвих показників.

Порівняльний порівняльний аналіз між чистими та сміттєвими наборами даних показує, що втручання у сміттєве сміття пов'язане зі зниженням когнітивних функцій у міркуваннях, довгому контексті та етичних нормах. Темні особистості LLM проявляються з втручанням сміття М1, що викликає серйозні занепокоєння щодо безпеки.

Не викидайте вже підготовлену модель Alignment/RL став невід'ємною частиною навчання LLM, але має кілька недоліків, з якими чудово справляються попередньо навчені базові моделі. У цій статті розглядається, як використовувати переваги обох світів і розробляти адаптивні системи штучного інтелекту.

Вони пропонують Switch Generation, де для генерації динамічно вибирається кілька контрольних точок моделі. Експерименти з 8 базовими лініями співпраці та 18 наборами даних демонструють, що модельні підходи до співпраці перевершують усі окремі моделі на 16 із 18 наборів даних.

Як навчання з підкріпленням після прогнозування наступних токенів полегшує навчання У статті досліджується, як авторегресійні моделі досягають успіху у вирішенні складних завдань прогнозування, дотримуючись цього рецепту навчання (прогнозування наступного токена з подальшим навчанням з підкріпленням).

Для експериментів вони припускають, що дані передтренувальної підготовки містять рідкісні демонстрації для завдання, що цікавить. Виходячи з цього, вони пояснюють: - Труднощі узагальнення під час передтренувальної підготовки - Як РЛ призводить до швидкого поліпшення - Що призводить до більш тривалих реакцій?

Слідкуйте за нами @ritualdigest, щоб дізнатися більше про все, що стосується досліджень crypto x AI, а також @ritualnet дізнатися більше про те, що будує Ritual.

575

Найкращі

Рейтинг

Вибране