Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
CEO și membru al personalului tehnic @sourcegraph @ampcode
Dacă ai vedea cum folosesc oamenii agenții de codare, ți-ai da seama că punctul de vedere al lui Andrej este foarte adevărat.
Oamenii care îi țin în lesă, folosind fire scurte, citind și revizuind tot codul, pot obține multă valoare de la agenții de codare. Oamenii care înnebunesc au un high rapid, dar apoi își dau seama rapid că primesc valoare negativă.
Pentru un agent de codificare, obținerea elementelor de bază corecte (de exemplu, agenții care pot construi/testa codul în mod fiabil și minim și o interfață excelentă pentru revizuirea codului și colaborarea om-agent) >>> WhateverBench și "ore de autonomie" pentru cablaje de agenți și 10 subagenți paraleli cu slop de specificații


Andrej Karpathy19 oct., 04:23
Plăcerea mea să vin la Dwarkesh săptămâna trecută, mi s-a părut că întrebările și conversația au fost foarte bune.
Am revăzut capsula chiar acum. În primul rând, da, știu și îmi pare rău că vorbesc atât de repede :). Este în detrimentul meu pentru că uneori firul meu vorbitor îmi depășește firul de gândire, așa că cred că am greșit câteva explicații din cauza asta, iar uneori am fost și emoționat că merg prea mult pe o tangentă sau prea adânc în ceva relativ fals. Oricum, câteva note/indicații:
Termene AGI. Comentariile mele despre cronologia AGI par a fi cea mai populară parte a răspunsului timpuriu. Acesta este "deceniul agenților" este o referire la acest tweet anterior Practic, cronologia mea AI este de aproximativ 5-10 ori pesimistă cu ceea ce veți găsi în petrecerea de cartier SF AI sau pe cronologia dvs. Conflictul aparent nu este: în același timp, 1) am văzut o cantitate uriașă de progrese în ultimii ani cu LLM-urile, în timp ce 2) mai este încă mult de lucru rămas (muncă grea, muncă de integrare, senzori și actuatori în lumea fizică, muncă socială, muncă de siguranță și securitate (jailbreak-uri, otrăvire etc.)) și, de asemenea, cercetare de făcut înainte de a avea o entitate pe care ați prefera să o angajați în locul unei persoane pentru o slujbă arbitrară în lume. Cred că, în general, 10 ani ar trebui să fie o cronologie foarte optimistă pentru AGI, doar în contrast cu hype-ul prezent nu se simte așa.
Animale vs fantome. Articolul meu anterior despre podcastul lui Sutton. Sunt suspicios că există un singur algoritm simplu pe care îl poți lăsa liber în lume și învață totul de la zero. Dacă cineva construiește așa ceva, mă voi înșela și va fi cea mai incredibilă descoperire în AI. În mintea mea, animalele nu sunt deloc un exemplu în acest sens - sunt preambalate cu o tonă de inteligență prin evoluție și învățarea pe care o fac este destul de minimă în general (exemplu: Zebra la naștere). Punându-ne pălăriile de inginer, nu vom reface evoluția. Dar cu LLM-urile ne-am împiedicat de o abordare alternativă de a "preambala" o tonă de inteligență într-o rețea neuronală - nu prin evoluție, ci prin prezicerea următorului token pe internet. Această abordare duce la un alt tip de entitate în spațiul de informații. Distinct de animale, mai degrabă ca fantomele sau spiritele. Dar putem (și ar trebui) să le facem mai animale în timp și, într-un fel, despre asta este vorba în multe lucrări de frontieră.
Pe RL. Am criticat RL deja de câteva ori, de ex. . În primul rând, "sugi supravegherea printr-un pai", așa că cred că semnalul/eșecul este foarte rău. RL este, de asemenea, foarte zgomotos, deoarece o finalizare ar putea avea o mulțime de erori care ar putea fi încurajate (dacă se întâmplă să vă împiedicați de răspunsul corect) și, dimpotrivă, jetoane de perspectivă strălucitoare care ar putea fi descurajate (dacă se întâmplă să greșiți mai târziu). Supravegherea proceselor și judecătorii LLM au și ei probleme. Cred că vom vedea paradigme alternative de învățare. Am văzut recent o serie de lucrări care latră în arborele potrivit pe linia a ceea ce am numit "învățare promptă a sistemului", dar cred că există și un decalaj între ideile despre arxiv și implementarea reală, la scară într-un laborator de frontieră LLM care funcționează într-un mod general. În general, sunt destul de optimist că vom vedea progrese bune în această dimensiune a muncii rămase destul de curând și, de exemplu, aș spune chiar că memoria ChatGPT și așa mai departe sunt exemple primordiale implementate de noi paradigme de învățare.
Nucleul cognitiv. Postarea mea anterioară despre "nucleul cognitiv": ideea de a elimina LLM-urile, de a le face mai greu să memoreze sau de a-și elimina în mod activ memoria, pentru a-i face mai buni la generalizare. În caz contrar, se bazează prea mult pe ceea ce au memorat. Oamenii nu pot memora atât de ușor, ceea ce acum arată mai mult ca o caracteristică decât ca o eroare. Poate că incapacitatea de a memora este un fel de regularizare. De asemenea, postarea mea de acum ceva timp despre cum tendința în dimensiunea modelului este "inversă" și de ce "modelele trebuie să devină mai întâi mai mari înainte de a putea deveni mai mici"
Călătorie în timp la Yann LeCun 1989. Aceasta este postarea pe care am făcut-o foarte grăbită/proastă de a o descrie pe pod: . Practic - cât de mult ați putea îmbunătăți rezultatele lui Yann LeCun cu cunoștințele de 33 de ani de progres algoritmic? Cât de constrânse au fost rezultatele de fiecare dintre algoritmi, date și calcul? Studiu de caz acolo.
nanochat. Implementarea mea end-to-end a conductei de instruire/inferență ChatGPT (elementele esențiale)
Pe agenții LLM. Critica mea la adresa industriei este mai degrabă în depășirea capacității actuale a sculelor. Trăiesc în ceea ce văd ca o lume intermediară în care vreau să colaborez cu LLM-uri și în care argumentele noastre pro / contra sunt potrivite. Industria trăiește într-un viitor în care entități complet autonome colaborează în paralel pentru a scrie tot codul și oamenii sunt inutili. De exemplu, nu vreau un agent care se oprește timp de 20 de minute și se întoarce cu 1.000 de linii de cod. Cu siguranță nu mă simt pregătit să supraveghez o echipă de 10 dintre ei. Aș vrea să merg în bucăți pe care să le pot păstra în cap, în care un LLM explică codul pe care îl scrie. Aș vrea să-mi dovedească că ceea ce a făcut este corect, vreau să extragă documentele API și să-mi arate că a folosit lucrurile corect. Vreau să facă mai puține presupuneri și să mă întrebe/colaboreze atunci când nu sunt sigur de ceva. Vreau să învăț pe parcurs și să devin mai bun ca programator, nu doar să primesc munți de cod despre care mi s-a spus că funcționează. Cred că instrumentele ar trebui să fie mai realiste în ceea ce privește capacitatea lor și modul în care se încadrează în industria de astăzi și mă tem că, dacă acest lucru nu este făcut bine, am putea ajunge la munți de slop care se acumulează în software și o creștere a vulnerabilităților, breșelor de securitate etc.
Automatizarea lucrărilor. Cum se descurcă grozav radiologii și ce locuri de muncă sunt mai susceptibile la automatizare și de ce.
Fizică. Copiii ar trebui să învețe fizica în educația timpurie nu pentru că continuă să facă fizică, ci pentru că este materia care pornește cel mai bine un creier. Fizicienii sunt celulele stem embrionare intelectuale Am o postare mai lungă care a fost pe jumătate scrisă în schițele mele de ~ an, pe care sper să o termin în curând.
Mulțumesc din nou Dwarkesh pentru că m-ai primit!
180,85K
Limită superioară
Clasament
Favorite