Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Вот дайджест Ritual Research за эту неделю, информационный бюллетень, охватывающий последние события в мире LLM и пересечении Crypto x AI.
С сотнями статей, публикуемых еженедельно, оставаться в курсе последних новостей невозможно. Мы читаем, чтобы вам не пришлось.

В этой статье задаются вопросы: Что проверять? Как проверять? И зачем вообще проверять?
Авторы приходят к выводу, что ценность проверки зависит от отсутствия чрезмерно жесткого контроля, который отвергает разумные решения, в то время как игнорирование проверки позволяет низкокачественным данным доминировать.
Вариация в верификации: Понимание динамики верификации в больших языковых моделях
Статья изучает факторы, влияющие на успех верификации, такие как
- сложность задачи
- способность генераторов к генерации
- способность верификаторов к генерации.

Они обнаруживают, что:
- Проверяющие с большей вероятностью распознают правильные решения на простых задачах
- Ошибки, сделанные слабыми генераторами, легче обнаружить, чем ошибки, сделанные сильными генераторами
- Способность генерации проверяющего коррелирует с производительностью в зависимости от сложности задачи.
Обучение с подкреплением на данных предварительного обучения
В статье предлагается RLPT, который масштабирует обучение с подкреплением на данных предварительного обучения. Они предлагают цель рассуждения о следующем сегменте, которая вознаграждает LLM за правильное предсказание следующего сегмента с учетом предшествующего контекста.

Обширные эксперименты в области общего домена и математического рассуждения показывают, что RLPT значительно улучшает производительность и демонстрирует благоприятную тенденцию к масштабированию, а также далее демонстрируют, что RLPT предоставляет прочную основу для последующего RLVR.

ARE: Масштабирование агентских сред и оценок
В данной статье предлагаются Исследовательские среды для мета-агентов (ARE) — платформа, которая поддерживает оркестрацию, создание сред и подключение приложений для разработки и оценки агентов.

В документе также представлена Gaia2, оценка для агентов. Gaia2 состоит из 1,120 проверяемых, аннотированных сценариев, которые происходят в мобильной среде, имитирующей смартфон с такими приложениями, как электронная почта, обмен сообщениями и календарь. Они обнаружили, что gpt-5 показывает наилучшие результаты.

Подписывайтесь на нас @ritualdigest, чтобы узнать больше о всем, что связано с криптовалютой и исследованиями в области ИИ, а также @ritualnet, чтобы узнать больше о том, что строит Ritual.
7,21K
Топ
Рейтинг
Избранное