Вот дайджест Ritual Research за эту неделю, информационный бюллетень, охватывающий последние события в мире LLM и пересечении Crypto x AI. С сотнями статей, публикуемых еженедельно, оставаться в курсе последних новостей невозможно. Мы читаем, чтобы вам не пришлось.
Токены с низкой вероятностью поддерживают исследование в обучении с подкреплением с проверяемой наградой В этой статье говорится, что узким местом моделей рассуждений может быть устранение токенов с низкой вероятностью, которые они называют Искрами Рассуждения.
Они вводят Lp-Reg для сохранения ценных токенов с низкой вероятностью с помощью регуляризации. Lp-Reg сначала отбрасывает шумные токены с низкой вероятностью, а затем перераспределяет массу вероятности среди оставшихся кандидатов. На 5 математических бенчмарках на Qwen3-14B они улучшают результат на 2.66%.
О роли температурного сэмплинга в масштабировании во время тестирования Недавнее масштабирование TTS (масштабирование во время тестирования) увеличило Pass@k до 1024, но достигли ли мы предела производительности TTS? В статье показано, что с помощью температурного сэмплинга мы можем дополнительно масштабировать TTS.
Документы показывают, что температура может быть новым измерением для масштабирования во время тестирования. В ходе экспериментов с Qwen3 (0.6B, 1.7B, 4B, 8B) и пятью контрольными точками, температурное масштабирование дает 7.3 пункта по сравнению с однотемпературным TTS. Они также разработали эффективный метод для T-масштабирования.
DiffuSpec: Разблокировка языковых моделей диффузии для спекулятивного декодирования Модели диффузии как черновики для спекулятивного декодирования хорошо подходят благодаря более высокой пропускной способности предложений токенов на шаг и более высокому качеству предложений.
Однако модели диффузии страдают от проблем, связанных с причинной согласованностью и длиной черновика. Чтобы решить эти проблемы, в статье представлен DiffuSpec, метод, не требующий обучения. В различных задачах он обеспечивает увеличение скорости до 3× по времени, превосходя другие базовые методы без обучения.
Создавая синтетические данные с различной степенью сложности для чтения, они обнаруживают, что читаемость не является ключом к согласованности в малых языковых моделях. Их результаты предполагают, что статистическая простота является более сильным предиктором обучаемости в малых языковых моделях.
Подписывайтесь на нас @ritualdigest, чтобы узнать больше о всем, что связано с криптовалютой и исследованиями в области ИИ, а также @ritualnet, чтобы узнать больше о том, что строит Ritual.
1,49K