DApp Store | Hub da Web3 para eventos e jogos

O que posso fazer em Descobrir?

Tópicos em alta

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-1,03%

Boopa-31,86%

PORK-1,63%

Dwarkesh Patel

Dwarkesh Patel23 de set., 23:55

Tudo o que você sabe atualmente existe na diferença insignificante entre tudo o que você aprendeu e tudo o que você esqueceu.

26,47K

Dwarkesh Patel23 de set., 04:07

Eu me pergunto o que aconteceria se você replicasse o estudo de elevação da IA do METR, mas para ferramentas mais mundanas. Por exemplo, conclua esta solicitação de pull, mas nenhum acesso à Internet é permitido. Não ficaria surpreso se a produtividade melhorasse (assim como aconteceu sem LLMs) Nesse caso, talvez o estudo diga mais sobre como é fácil se distrair (e como, desde que você tenha qualquer outra opção, você se recusará a dedicar esforço cognitivo no centro do problema) do que sobre os assistentes de codificação LLM especificamente.

METR11 de jul. de 2025

Realizamos um estudo controlado randomizado para ver o quanto as ferramentas de codificação de IA aceleram os desenvolvedores de código aberto experientes. Os resultados nos surpreenderam: os desenvolvedores pensaram que eram 20% mais rápidos com ferramentas de IA, mas na verdade eram 19% mais lentos quando tinham acesso à IA do que quando não tinham.

38,46K

Dwarkesh Patel22 de set., 10:20

Da postagem de @tobyordoxford. Existe uma boa evidência pública de quão amplas são as habilidades que os LLMs aprendem com o RL? Por exemplo, qual é o exemplo mais convincente de transferência de aprendizagem em RL? Onde o treinamento em um ambiente específico leva a melhores capacidades em alguns domínios bastante diferentes? Eu sei que uma resposta óbvia aqui pode ser apenas apontar para o GPT 5. Por mais que seja melhor no pensamento geral do que o GPT, 4o provavelmente se deve ao RL.

Dwarkesh Patel20 de set., 01:44

Postagem interessante. Bits/FLOP de RL são 3-6 OOMs menores que o pré-treinamento. Embora @tamaybes tenha afirmado que os bits de RL podem ter como alvo as habilidades específicas que você deseja aprender. Considerando que o pré-treinamento apenas distribui esses bits sobre o aprendizado de relacionamentos ASCII aleatórios e um milhão de outras coisas irrelevantes. Além disso, para qualquer tarefa, há muitas decisões cuja execução específica não importa muito, e algumas que você realmente deseja acertar. RL pode concentrar o sinal para aprender como não bagunçar os estados críticos do episódio, em vez de acertar cada token. Imagem útil de uma das palestras antigas de @svlevine (B é o estado crítico): Acho que isso ainda mostra que o RL é muito, muito menos denso em informações do que o pré-treinamento. E concordo com Toby que o ganho de inteligência por FLOP de treinamento de ambiente RL será menor do que muitos supõem. Trabalhando em um post sobre isso com @EgeErdil2, @MatthewJBar e @tamaybes. Espero que possamos publicar na próxima semana.

51,73K

Melhores

Classificação

Favoritos