Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

clem 🤗
Medgründer og administrerende direktør @HuggingFace🤗, den åpne og samarbeidende plattformen for AI-byggere
clem 🤗 lagt ut på nytt
Hermes-4-14B er utgitt!
Vår mest kompakte LLM fra Hermes 4-serien er lokalt brukbar og optimalisert for forbrukermaskinvare, og gir hjemmetilgang til dens kraftige hybride resonnement og verktøykall.
Modellen er nå tilgjengelig på Nous Chat for nettbruk og kan lastes ned på HuggingFace.

3,24K
Et kinesisk matleveringsselskap bidrar mer til å fremme AI enn US Big Tech takket være åpen vitenskap og åpen kildekode AI 🤯🤯🤯
USA er kokt hvis AI-forskere ikke kjemper mot ledelsen sin for å komme tilbake til røttene våre med å dele vitenskap i stedet for å holde den hemmelig og bare tjene penger på den maksimalt!
I det lange løp bygger åpen vitenskap sterkere selskaper, sterkere land og en sterkere verden!

elie31. aug. 2025
Den tekniske rapporten til @Meituan_LongCat LongCat-Flash er vanvittig god og full av nyheter.
Modellen er en 560B passiv ~27B aktiv MoE med adaptivt antall aktive parametere avhengig av konteksten takket være Zero-Computational-eksperten.
1) Ny arkitektur
> lag har 2 oppmerksomhetsblokker og både FFN og MoE, på den måten kan du overlappe de 2 alt-til-alle-comene. (Dessuten er det bare 28 lag, men du må ta hensyn til de 2 oppmerksomhetsblokkene).
> De legger til null-beregningseksperten at tokens kan velge og ikke gjøre noe, litt som en "vask" for enkle tokens.
> For lastbalansering har de et dsv3-lignende aux-tap gratis for å angi gjennomsnittlig ekte/falsk ekspert per token. De bruker en forfallsplan på denne skjevhetsoppdateringen. De gjør også tapsbalansekontroll.
2) Skalering
> De gjorde endringer i MLA/MoE for å ha variansjustering ved init. Gevinstene er ganske imponerende i figur 5, men jeg vet ikke i hvilken grad dette har innvirkning senere.
> Modellvekst init er ganske kult, de trener først en 2x mindre modell, og deretter "når den er trent nok" (litt uklart her hvor mange B-tokens) initerer de den endelige modellen ved å bare stable lagene til den mindre modellen.
> De brukte @_katieeverett @Locchiu og al. papir for å ha hyperparameteroverføring med SP i stedet for muP for den 2x mindre modellen ig.
3) Stabilitet
> De sporer Gradient Norm Ratio og cosinuslikhet mellom eksperter for å justere vekten av lastbalanseringstapet (de anbefaler Gradient Norm Ratio <0,1). > For å unngå store aktiveringer bruker de et z-tap på den skjulte tilstanden, med en ganske liten coef (et annet alternativ til qk-clip/norm).
> De setter Adam epsilon til 1e-16 og viser at du vil at den skal være lavere enn gradient RMS-området.
4) Andre
> De trener på 20T-tokens for fase 1, "multiple T of tokens" for midttrening på STEM/kodedata (70 % av blandingen), 100B for lang kontekstforlengelse uten garn (80B for 32k, 20B for 128k). De lange kontekstdokumentene representerer 25 % av blandingen (ikke sikker på om det er % av dokumenter eller tokens, noe som endrer mye her).
> Datapipeline før trening er kontekstutvinning, kvalitetsfiltrering, dedup.
> Nice-vedlegg der de viser at de sammenligner top_k som trengs for forskjellige benchmarks (høyere MMLU med 8.32, lavere GSM8K med 7.46). De sammenligner også tokenallokering i dype/grunne lag.
> De lanserer to nye benchmarks Meeseeks (multi-turn IF) og VitaBench (virkelig forretningsscenario).
> Mange detaljer i infra/inferens med informasjon om spekulativ dekodingsaksept, kvantisering, distribusjon, kjerneoptimalisering, coms-overlapping, etc.
> Liste over de forskjellige relevante papirene i tråden 🧵

111,24K
Topp
Rangering
Favoritter