Магазин DApp | Web3-центр мероприятий и игр | Кошелек OKX

Актуальные темы

header

Dwarkesh Patel

Из поста @tobyordoxford. Существуют ли хорошие публичные доказательства того, насколько широки навыки, которые LLMs (языковые модели) обучаются с помощью RL (обучение с подкреплением)? Например, какой самый убедительный пример переноса обучения в RL? Когда обучение в конкретной среде приводит к лучшим возможностям в некоторых довольно несхожих областях? Я знаю, что очевидным ответом здесь может быть просто указать на GPT 5. Однако то, насколько он лучше в общем мышлении, чем GPT 4, вероятно, связано с RL.

Топ

Рейтинг

Избранное