Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Eu me pergunto o que aconteceria se você replicasse o estudo de elevação da IA do METR, mas para ferramentas mais mundanas.
Por exemplo, conclua esta solicitação de pull, mas nenhum acesso à Internet é permitido.
Não ficaria surpreso se a produtividade melhorasse (assim como aconteceu sem LLMs)
Nesse caso, talvez o estudo diga mais sobre como é fácil se distrair (e como, desde que você tenha qualquer outra opção, você se recusará a dedicar esforço cognitivo no centro do problema) do que sobre os assistentes de codificação LLM especificamente.

METR11 de jul. de 2025
Realizamos um estudo controlado randomizado para ver o quanto as ferramentas de codificação de IA aceleram os desenvolvedores de código aberto experientes.
Os resultados nos surpreenderam: os desenvolvedores pensaram que eram 20% mais rápidos com ferramentas de IA, mas na verdade eram 19% mais lentos quando tinham acesso à IA do que quando não tinham.

38,46K
Da postagem de @tobyordoxford.
Existe uma boa evidência pública de quão amplas são as habilidades que os LLMs aprendem com o RL?
Por exemplo, qual é o exemplo mais convincente de transferência de aprendizagem em RL? Onde o treinamento em um ambiente específico leva a melhores capacidades em alguns domínios bastante diferentes?
Eu sei que uma resposta óbvia aqui pode ser apenas apontar para o GPT 5. Por mais que seja melhor no pensamento geral do que o GPT, 4o provavelmente se deve ao RL.


Dwarkesh Patel20 de set., 01:44
Postagem interessante. Bits/FLOP de RL são 3-6 OOMs menores que o pré-treinamento.
Embora @tamaybes tenha afirmado que os bits de RL podem ter como alvo as habilidades específicas que você deseja aprender. Considerando que o pré-treinamento apenas distribui esses bits sobre o aprendizado de relacionamentos ASCII aleatórios e um milhão de outras coisas irrelevantes.
Além disso, para qualquer tarefa, há muitas decisões cuja execução específica não importa muito, e algumas que você realmente deseja acertar. RL pode concentrar o sinal para aprender como não bagunçar os estados críticos do episódio, em vez de acertar cada token. Imagem útil de uma das palestras antigas de @svlevine (B é o estado crítico):
Acho que isso ainda mostra que o RL é muito, muito menos denso em informações do que o pré-treinamento. E concordo com Toby que o ganho de inteligência por FLOP de treinamento de ambiente RL será menor do que muitos supõem.
Trabalhando em um post sobre isso com @EgeErdil2, @MatthewJBar e @tamaybes. Espero que possamos publicar na próxima semana.


51,73K
Melhores
Classificação
Favoritos