Вот дайджест Ritual Research за эту неделю, информационный бюллетень, охватывающий последние события в мире LLM и пересечении Crypto x AI. С сотнями статей, публикуемых еженедельно, оставаться в курсе последних новостей невозможно. Мы читаем, чтобы вам не пришлось.
Не все биты равны: стратегии оптимизации памяти, зависящие от масштаба, для моделей рассуждений Авторы исследуют принципы сжатия памяти для моделей рассуждений. Они учитывают размер модели, точность, длину генерируемого текста и сжатие кеша KV.
Они спрашивают: при фиксированном бюджете памяти как сбалансировать факторы для максимизации точности в задачах рассуждения? Более 1700 экспериментов с семейством Qwen3 на AIME и GPQA-Diamond. Они обнаружили, что универсальной стратегии нет, но у них есть рекомендации, специфичные для размера.
Искусство масштабирования вычислений для обучения с подкреплением для LLM В этой работе исследуется наука о масштабировании RL и разрабатывается ScaleRL, рецепт, который предсказуемо масштабируется с вычислительными ресурсами. Дизайн основан на эмпирическом исследовании масштабирования RL на протяжении 400,000 GPU-часов.
Они находят три ключевых принципа: • Пределы производительности RL не универсальны • Горький урок также применим к RL • Общие вмешательства, которые, как считается, улучшают пик производительности, в основном регулируют эффективность вычислений, не изменяя при этом предел производительности значительно.
LLM могут получить "мозговую гниль"! В этой статье исследуется, могут ли LLM получить мозговую гниль, т.е. если обучать их на мусорном веб-тексте, будет ли это иметь длительное когнитивное снижение у LLM? Они проводят эксперименты, создавая наборы данных из социальных сетей (Twitter/X) с помощью двух мусорных метрик.
Сравнительное бенчмаркинг между чистыми и мусорными наборами данных показывает, что вмешательство с мусором связано с когнитивными ухудшениями в рассуждении, долгосрочном контексте и этических нормах. Темные личности LLM проявляются с вмешательством M1 мусора, вызывая значительные опасения по поводу безопасности.
Не выбрасывайте свою предобученную модель Выравнивание/RL стало неотъемлемой частью обучения LLM, но имеет несколько недостатков, в которых предобученные базовые модели преуспевают. В этой статье рассматривается, как использовать преимущества обоих миров и разрабатывать адаптируемые AI-системы.
Они предлагают Switch Generation, где для генерации динамически выбираются несколько контрольных точек модели. Эксперименты с 8 базовыми линиями сотрудничества и 18 наборами данных демонстрируют, что подходы к сотрудничеству моделей превосходят все индивидуальные модели в 16 из 18 наборов данных.
Как обучение с подкреплением после предсказания следующего токена способствует обучению В статье изучается, как авторегрессионные модели успешно справляются с сложными задачами предсказания, следуя этому рецепту обучения (предсказание следующего токена, за которым следует обучение с подкреплением).
Для экспериментов они предполагают, что данные для предварительного обучения содержат редкие демонстрации для интересующей задачи. Исходя из этого, они объясняют: - Сложность обобщения во время предварительного обучения - Как RL приводит к быстрому улучшению - Что приводит к более длинным ответам?
Подписывайтесь на нас @ritualdigest, чтобы узнать больше о всем, что связано с криптовалютой и исследованиями в области ИИ, а также @ritualnet, чтобы узнать больше о том, что строит Ritual.
458