Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Мне интересно, что произойдет, если вы воспроизведете исследование повышения эффективности METR AI, но для более обыденных инструментов.
Например, завершите этот запрос на изменение, но без доступа в интернет.
Не удивлюсь, если производительность улучшится (так же, как это было без LLM).
Если это так, возможно, исследование говорит больше о том, как легко отвлечь себя (и о том, что, пока у вас есть любой другой вариант, вы откажетесь посвящать когнитивные усилия в сердце проблемы), чем о помощниках по кодированию LLM в частности.

METR11 июл. 2025 г.
Мы провели рандомизированное контролируемое исследование, чтобы увидеть, насколько инструменты программирования ИИ ускоряют опытных разработчиков с открытым исходным кодом.
Результаты нас удивили: разработчики думали, что они работают на 20% быстрее с инструментами искусственного интеллекта, но на самом деле они были на 19% медленнее, когда у них был доступ к искусственному интеллекту, чем когда его не было.

38,45K
Из поста @tobyordoxford.
Существуют ли хорошие публичные доказательства того, насколько широки навыки, которые LLMs (языковые модели) обучаются с помощью RL (обучение с подкреплением)?
Например, какой самый убедительный пример переноса обучения в RL? Когда обучение в конкретной среде приводит к лучшим возможностям в некоторых довольно несхожих областях?
Я знаю, что очевидным ответом здесь может быть просто указать на GPT 5. Однако то, насколько он лучше в общем мышлении, чем GPT 4, вероятно, связано с RL.


Dwarkesh Patel20 сент., 01:44
Интересный пост. Биты/FLOP от RL на 3-6 порядков ниже, чем до обучения.
Хотя @tamaybes отметил, что биты от RL могут нацеливаться на конкретные навыки, которые вы хотите изучить. В то время как предобучение просто распределяет эти биты по изучению случайных ASCII-отношений и миллиона других несущественных вещей.
Более того, для любой данной задачи есть много решений, выполнение которых не имеет большого значения, и несколько, которые вы действительно хотите выполнить идеально. RL может сосредоточить сигнал на том, чтобы не испортить критические состояния в эпизоде, в отличие от того, чтобы правильно получить каждый отдельный токен. Полезное изображение из одной из старых лекций @svlevine (B - критическое состояние):
Я думаю, что это все равно приводит к тому, что RL гораздо менее информационно плотен, чем предобучение. И я согласен с Тоби, что прирост интеллекта на FLOP обучения RL будет меньше, чем многие предполагают.
Работаю над постом об этом с @EgeErdil2, @MatthewJBar и @tamaybes. Надеюсь, мы сможем опубликовать на следующей неделе.


51,59K
Топ
Рейтинг
Избранное