Вот дайджест Ritual Research за эту неделю, информационный бюллетень, охватывающий последние события в мире LLM и пересечении Crypto x AI. С сотнями статей, публикуемых еженедельно, оставаться в курсе последних новостей невозможно. Мы читаем, чтобы вам не пришлось.
В этой статье задаются вопросы: Что проверять? Как проверять? И зачем вообще проверять? Авторы приходят к выводу, что ценность проверки зависит от отсутствия чрезмерно жесткого контроля, который отвергает разумные решения, в то время как игнорирование проверки позволяет низкокачественным данным доминировать.
Вариация в верификации: Понимание динамики верификации в больших языковых моделях Статья изучает факторы, влияющие на успех верификации, такие как - сложность задачи - способность генераторов к генерации - способность верификаторов к генерации.
Они обнаруживают, что: - Проверяющие с большей вероятностью распознают правильные решения на простых задачах - Ошибки, сделанные слабыми генераторами, легче обнаружить, чем ошибки, сделанные сильными генераторами - Способность генерации проверяющего коррелирует с производительностью в зависимости от сложности задачи.
Обучение с подкреплением на данных предварительного обучения В статье предлагается RLPT, который масштабирует обучение с подкреплением на данных предварительного обучения. Они предлагают цель рассуждения о следующем сегменте, которая вознаграждает LLM за правильное предсказание следующего сегмента с учетом предшествующего контекста.
Обширные эксперименты в области общего домена и математического рассуждения показывают, что RLPT значительно улучшает производительность и демонстрирует благоприятную тенденцию к масштабированию, а также далее демонстрируют, что RLPT предоставляет прочную основу для последующего RLVR.
ARE: Масштабирование агентских сред и оценок В данной статье предлагаются Исследовательские среды для мета-агентов (ARE) — платформа, которая поддерживает оркестрацию, создание сред и подключение приложений для разработки и оценки агентов.
В документе также представлена Gaia2, оценка для агентов. Gaia2 состоит из 1,120 проверяемых, аннотированных сценариев, которые происходят в мобильной среде, имитирующей смартфон с такими приложениями, как электронная почта, обмен сообщениями и календарь. Они обнаружили, что gpt-5 показывает наилучшие результаты.
Подписывайтесь на нас @ritualdigest, чтобы узнать больше о всем, что связано с криптовалютой и исследованиями в области ИИ, а также @ritualnet, чтобы узнать больше о том, что строит Ritual.
7,21K