Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Вот дайджест Ritual Research за эту неделю, информационный бюллетень, охватывающий последние события в мире LLM и пересечении Crypto x AI.
С сотнями статей, публикуемых еженедельно, оставаться в курсе последних новостей невозможно. Мы читаем, чтобы вам не пришлось.

Не все биты равны: стратегии оптимизации памяти, зависящие от масштаба, для моделей рассуждений
Авторы исследуют принципы сжатия памяти для моделей рассуждений. Они учитывают размер модели, точность, длину генерируемого текста и сжатие кеша KV.

Они спрашивают: при фиксированном бюджете памяти как сбалансировать факторы для максимизации точности в задачах рассуждения?
Более 1700 экспериментов с семейством Qwen3 на AIME и GPQA-Diamond. Они обнаружили, что универсальной стратегии нет, но у них есть рекомендации, специфичные для размера.

Искусство масштабирования вычислений для обучения с подкреплением для LLM
В этой работе исследуется наука о масштабировании RL и разрабатывается ScaleRL, рецепт, который предсказуемо масштабируется с вычислительными ресурсами. Дизайн основан на эмпирическом исследовании масштабирования RL на протяжении 400,000 GPU-часов.

Они находят три ключевых принципа:
• Пределы производительности RL не универсальны
• Горький урок также применим к RL
• Общие вмешательства, которые, как считается, улучшают пик производительности, в основном регулируют эффективность вычислений, не изменяя при этом предел производительности значительно.

LLM могут получить "мозговую гниль"!
В этой статье исследуется, могут ли LLM получить мозговую гниль, т.е. если обучать их на мусорном веб-тексте, будет ли это иметь длительное когнитивное снижение у LLM?
Они проводят эксперименты, создавая наборы данных из социальных сетей (Twitter/X) с помощью двух мусорных метрик.

Сравнительное бенчмаркинг между чистыми и мусорными наборами данных показывает, что вмешательство с мусором связано с когнитивными ухудшениями в рассуждении, долгосрочном контексте и этических нормах.
Темные личности LLM проявляются с вмешательством M1 мусора, вызывая значительные опасения по поводу безопасности.


Не выбрасывайте свою предобученную модель
Выравнивание/RL стало неотъемлемой частью обучения LLM, но имеет несколько недостатков, в которых предобученные базовые модели преуспевают. В этой статье рассматривается, как использовать преимущества обоих миров и разрабатывать адаптируемые AI-системы.

Они предлагают Switch Generation, где для генерации динамически выбираются несколько контрольных точек модели.
Эксперименты с 8 базовыми линиями сотрудничества и 18 наборами данных демонстрируют, что подходы к сотрудничеству моделей превосходят все индивидуальные модели в 16 из 18 наборов данных.


Как обучение с подкреплением после предсказания следующего токена способствует обучению
В статье изучается, как авторегрессионные модели успешно справляются с сложными задачами предсказания, следуя этому рецепту обучения (предсказание следующего токена, за которым следует обучение с подкреплением).

Для экспериментов они предполагают, что данные для предварительного обучения содержат редкие демонстрации для интересующей задачи.
Исходя из этого, они объясняют:
- Сложность обобщения во время предварительного обучения
- Как RL приводит к быстрому улучшению
- Что приводит к более длинным ответам?

Подписывайтесь на нас @ritualdigest, чтобы узнать больше о всем, что связано с криптовалютой и исследованиями в области ИИ, а также @ritualnet, чтобы узнать больше о том, что строит Ritual.
458
Топ
Рейтинг
Избранное