Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ось Ritual Research Digest цього тижня, інформаційний бюлетень, який висвітлює найновіші новини у світі LLM та перетин Crypto x AI.
З сотнями газет, що публікуються щотижня, залишатися в курсі останніх неможливо. Ми читаємо, щоб вам не доводилося цього робити.

У цьому документі ставиться питання: Що перевіряти? Як верифікуватися? І навіщо взагалі перевіряти?
Вони виявляють, що цінність верифікації залежить від відсутності надто жорсткого контролю, який відкидає розумні рішення, тоді як повне ігнорування верифікації дозволяє домінувати неякісним даним.
Варіація верифікації: розуміння динаміки верифікації в моделях великих мов
У статті досліджено фактори, що впливають на успішність верифікації
- складність проблеми
- можливість генерації генераторів
- Можливість генерації верифікаторів.

Вони виявляють, що:
- Верифікатори з більшою ймовірністю знайдуть правильні рішення для легких проблем
- Помилки, допущені слабкими генераторами, виявити легше, ніж помилки сильних генераторів
- Здатність генерації верифікатора корелює з продуктивністю в умовах складності задачі.
Навчання з підкріпленням на даних перед тренуванням
У статті запропоновано RLPT, який масштабує RL за даними перед тренуванням. Вони пропонують мету міркування наступного сегмента, яка винагороджує LLM за правильне передбачення наступного сегмента з урахуванням попереднього контексту.

Широкі експерименти із загальнодоменними та математичними міркуваннями показують, що RLPT значно покращує продуктивність і демонструє сприятливу тенденцію масштабування, а також демонструють, що RLPT забезпечує міцну основу для наступних RLVR.

ARE: Масштабування середовищ агентів та оцінок
У цьому документі пропонується Meta Agents Research Environments (ARE), платформа, яка підтримує оркестрацію, створення середовищ і підключення додатків для розробки та оцінки агентів.

У документі також представлено Gaia2, оцінку для агентів. Gaia2 складається з 1 120 перевірених анотованих сценаріїв, які відбуваються в мобільному середовищі, імітуючи смартфон з такими додатками, як електронна пошта, повідомлення та календар. Вони вважають, що gpt-5 high працює найкраще.

Слідкуйте за нами @ritualdigest, щоб дізнатися більше про все, що стосується досліджень crypto x AI, а також
@ritualnet дізнатися більше про те, що будує Ritual.
7,22K
Найкращі
Рейтинг
Вибране