Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ось Ritual Research Digest цього тижня, інформаційний бюлетень, який висвітлює найновіші новини у світі LLM та перетин Crypto x AI.
З сотнями газет, що публікуються щотижня, залишатися в курсі останніх неможливо. Ми читаємо, щоб вам не доводилося цього робити.

Не всі біти однакові: залежні від масштабу стратегії оптимізації пам'яті для моделей міркувань
Авторами досліджено принципи стиснення пам'яті для моделей міркувань. Вони враховують розмір моделі, точність, довжину покоління та стиснення кешу KV.

Вони запитують: який баланс факторів забезпечує максимальну точність у завданнях на міркування?
Понад 1700 експериментів на сімействі Qwen3 на AIME та GPQA-Diamond. Вони вважають, що універсальної стратегії не існує, але у них є рекомендації щодо конкретного розміру.

Мистецтво масштабування обчислень навчання з підкріпленням для LLM
Ця робота досліджує науку масштабування RL і розробляє ScaleRL, рецепт, який передбачувано масштабується за допомогою обчислень. Дизайн ґрунтується на емпіричному дослідженні масштабування RL понад 400 000 GPU-годин.

Вони знаходять три ключові принципи:
• Стелі RL Performance не є універсальними
• Гіркий урок стосується і РЛ
• Загальні втручання, які, як вважається, спрямовані на підвищення пікової продуктивності, в основному коригують ефективність обчислень, при цьому не змінюючи стелю продуктивності значно.

LLM можуть отримати «мозкову гниль»!
У цій статті досліджується, чи можуть LLM викликати гниття мозку, тобто, якщо вони тренуються на небажаному веб-тексті, чи має він тривалий когнітивний спад у LLM?
Вони експериментують, конструюючи набори даних із соціальних мереж (Twitter/X) за допомогою двох сміттєвих показників.

Порівняльний порівняльний аналіз між чистими та сміттєвими наборами даних показує, що втручання у сміттєве сміття пов'язане зі зниженням когнітивних функцій у міркуваннях, довгому контексті та етичних нормах.
Темні особистості LLM проявляються з втручанням сміття М1, що викликає серйозні занепокоєння щодо безпеки.


Не викидайте вже підготовлену модель
Alignment/RL став невід'ємною частиною навчання LLM, але має кілька недоліків, з якими чудово справляються попередньо навчені базові моделі. У цій статті розглядається, як використовувати переваги обох світів і розробляти адаптивні системи штучного інтелекту.

Вони пропонують Switch Generation, де для генерації динамічно вибирається кілька контрольних точок моделі.
Експерименти з 8 базовими лініями співпраці та 18 наборами даних демонструють, що модельні підходи до співпраці перевершують усі окремі моделі на 16 із 18 наборів даних.


Як навчання з підкріпленням після прогнозування наступних токенів полегшує навчання
У статті досліджується, як авторегресійні моделі досягають успіху у вирішенні складних завдань прогнозування, дотримуючись цього рецепту навчання (прогнозування наступного токена з подальшим навчанням з підкріпленням).

Для експериментів вони припускають, що дані передтренувальної підготовки містять рідкісні демонстрації для завдання, що цікавить.
Виходячи з цього, вони пояснюють:
- Труднощі узагальнення під час передтренувальної підготовки
- Як РЛ призводить до швидкого поліпшення
- Що призводить до більш тривалих реакцій?

Слідкуйте за нами @ritualdigest, щоб дізнатися більше про все, що стосується досліджень crypto x AI, а також
@ritualnet дізнатися більше про те, що будує Ritual.
575
Найкращі
Рейтинг
Вибране