Ось Ritual Research Digest цього тижня, інформаційний бюлетень, який висвітлює найновіші новини у світі LLM та перетин Crypto x AI. З сотнями газет, що публікуються щотижня, залишатися в курсі останніх неможливо. Ми читаємо, щоб вам не доводилося цього робити.
У цьому документі ставиться питання: Що перевіряти? Як верифікуватися? І навіщо взагалі перевіряти? Вони виявляють, що цінність верифікації залежить від відсутності надто жорсткого контролю, який відкидає розумні рішення, тоді як повне ігнорування верифікації дозволяє домінувати неякісним даним.
Варіація верифікації: розуміння динаміки верифікації в моделях великих мов У статті досліджено фактори, що впливають на успішність верифікації - складність проблеми - можливість генерації генераторів - Можливість генерації верифікаторів.
Вони виявляють, що: - Верифікатори з більшою ймовірністю знайдуть правильні рішення для легких проблем - Помилки, допущені слабкими генераторами, виявити легше, ніж помилки сильних генераторів - Здатність генерації верифікатора корелює з продуктивністю в умовах складності задачі.
Навчання з підкріпленням на даних перед тренуванням У статті запропоновано RLPT, який масштабує RL за даними перед тренуванням. Вони пропонують мету міркування наступного сегмента, яка винагороджує LLM за правильне передбачення наступного сегмента з урахуванням попереднього контексту.
Широкі експерименти із загальнодоменними та математичними міркуваннями показують, що RLPT значно покращує продуктивність і демонструє сприятливу тенденцію масштабування, а також демонструють, що RLPT забезпечує міцну основу для наступних RLVR.
ARE: Масштабування середовищ агентів та оцінок У цьому документі пропонується Meta Agents Research Environments (ARE), платформа, яка підтримує оркестрацію, створення середовищ і підключення додатків для розробки та оцінки агентів.
У документі також представлено Gaia2, оцінку для агентів. Gaia2 складається з 1 120 перевірених анотованих сценаріїв, які відбуваються в мобільному середовищі, імітуючи смартфон з такими додатками, як електронна пошта, повідомлення та календар. Вони вважають, що gpt-5 high працює найкраще.
Слідкуйте за нами @ritualdigest, щоб дізнатися більше про все, що стосується досліджень crypto x AI, а також @ritualnet дізнатися більше про те, що будує Ritual.
7,22K