Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
Den nye Motif-2-12.7B (fra Sør-Korea) har virkelig imponerende poengsum, og de kokte nok en gang med arkitektur/maskinvareoptimalisering.
Min favorittdel er hvordan de brukte den forrige Motif-2.6B for å initialisere den større modellen, ved å bruke to forskjellige teknikker for å skalere dybden og bredden på modellen, noe som forbedrer token-effektiviteten sammenlignet med trening fra bunnen av. De bruker også sitt eget arbeid for å forbedre differensiell oppmerksomhet de tidligere brukte, med en gruppert variant for å få mer granularitet i støy- og signalhodene (mer signal, mindre støy).
Trent kun på 5.5T-tokens, med en "læreplanbevisst dataplanlegging" (ikke mye info om dette) + mange forskjellige maskinvareoptimaliseringer (noen av dem er åpen kildekode, se lenker nedenfor!) med parallelle Muon-Clip, effektive kjerner for Polynorm og FP8-trening ved hjelp av torchtitan!
De nevner også at Muon tillater større batchstørrelser, og de skalerer opp til 80M GBS, noe som er ganske høyt for en modell av denne størrelsen.
400 H100 GPUer og ~272K GPU-timer er imponerende å få dette ytelsesnivået imo

13,92K
Veldig kul blogg av @character_ai dykker ned i hvordan de trente sin proprietære modell Kaiju (13B, 34B, 110B), før de byttet til OSS-modell, og spoiler: den har Noam Shazeer skrevet over seg.
De fleste valgene for modelldesign (MQA, SWA, KV Cache, Quantization) er ikke for å optimalisere for "AGI benchmark" (tenk MMLU) siden dette ikke er det folk vil bruke modellen til, men i stedet ha en god serveringshastighet. Likevel inkluderer de kode i pre-training-miksen og gjør gløding på høykvalitets "benchmark-vennlige" data.
En overraskende ting er at disse modellene ikke er MoE, til tross for at folk som jobbet med karakter på den tiden som @stephenroller eller Noam tidligere jobbet med MoE.
Her er noen optimaliseringer de gjorde
-> MuP-lignende skalering
-> MQA + SWA
-> Klemmer overalt for å kontrollere aktiveringen, er du usikker på om den er myk eller hard?
-> KV Cache-deling
-> Relu^2 aktiveringsfunksjon
-> FSDP + TP + SP
-> Int6 gradert kommunikasjon
-> Quantization Aware Training (QAT) med ting som "bungee_scalar" for å få en stabil oppskrift på mindre modeller. KV Cache og forward pass er i int8, gradient og aktivering er i bf16, master weight og grad acc i fp32.

116,69K
> Project Suncatcher utforsker hvordan vi en dag kan bygge skalerbare ML-datasystemer i verdensrommet, og utnytte mer av solens kraft
Det ser ut til at interplanetarisk diloco ikke var en spøk tross alt 🚀

Sundar Pichai5. nov., 01:01
Våre TPU-er er på vei til verdensrommet!
Inspirert av vår historie med måneskudd, fra kvantedatabehandling til autonom kjøring, utforsker Project Suncatcher hvordan vi en dag kan bygge skalerbare ML-databehandlingssystemer i verdensrommet, og utnytte mer av solens kraft (som slipper ut mer kraft enn 100 billioner ganger menneskehetens totale elektrisitetsproduksjon).
Som ethvert måneskudd kommer det til å kreve at vi løser mange komplekse tekniske utfordringer. Tidlig forskning viser at våre Trillium-generasjons TPU-er (våre tensorbehandlingsenheter, spesialbygd for AI) overlevde uten skade når de ble testet i en partikkelakselerator for å simulere strålingsnivåer i lav jordbane. Imidlertid gjenstår fortsatt betydelige utfordringer som termisk styring og pålitelighet av systemet i bane.
Mer testing og gjennombrudd vil være nødvendig når vi teller ned for å skyte opp to prototypesatellitter med @planet tidlig i 2027, vår neste milepæl av mange. Spent på at vi skal være en del av all innovasjonen som skjer i (dette) rommet!

3,39K
Topp
Rangering
Favoritter

