DApp Store | Centrum Web3 pro události a hry

Prozkoumejte nadílku ve Web3 a získejte další úžasné odměny.

Populární témata

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+0,96 %

Boopa+21,61 %

PORK-3,82 %

Jeremy Howard

Jeremy Howard repostoval/a

CrystalPřed 14 h

Rozhovor se zakladatelem společnosti Kimi, Zhilin Yangem, je venku. Opět si můžete nechat Kimiho přeložit za vás:) je tam spousta postřehů. Několik záběrů: 1/ Zaměření základního modelu: K2 si klade za cíl být solidním základním modelem. Zjistili jsme, že růst vysoce kvalitních dat je pomalý a multimodální data výrazně nezvyšují textové "IQ". Proto se zaměřujeme na maximalizaci hodnoty každého datového tokenu – efektivity tokenu. 2/ Přeformulování dat: U 30T tokenů je jen malá část vysoce kvalitních dat (miliardy tokenů). Přeformulujeme je tak, aby byly pro model efektivnější a zlepšily zobecnění. 3/ Agentní schopnost: Naším cílem je posílit zobecnění. Největší výzvou je zajistit, aby model byl zobecněn nad rámec konkrétních úkolů. RL toto vylepšuje oproti jemnému doladění pod dohledem (SFT). 4/ Školení nativní pro AI: Zkoumáme další způsoby trénování modelů s nativní AI. Pokud umělá inteligence dokáže provádět dobrý výzkum zarovnání, bude lépe zobecňovat nad rámec optimalizace jednotlivých úkolů. 5/ RL vs SFT: Zobecnění RL je lepší, protože se učí ze vzorků politik, ale má své limity. RL pomáhá zlepšit konkrétní úlohy, ale je těžké zobecnit na všechny scénáře bez přizpůsobených úloh. 6/ Dlouhé kontexty: Délka kontextu je klíčová, potřebujeme miliony. Výzvou je vyvážit velikost modelu a délku kontextu pro optimální výkon, protože některé architektury se zlepšují s dlouhým kontextem, ale zhoršují se s krátkými.

60,67K

Jeremy HowardPřed 23 h

Cortesův doktorský titul mimochodem byl: "Predikce schopnosti zobecňovat u učících se strojů".

jack morris26. 8. 20:11

Nejprve jsem si myslel, že zákony o škálování pocházejí z OpenAI (2020) pak jsem si myslel, že pocházejí z Baidu (2017) Nyní jsem osvícený: Zákony škálování byly poprvé zkoumány v Bellových laboratořích (1993)

16,69K

Jeremy Howard25. 8. 07:08

WTF se s těmi lidmi mýlí? Nevšimli si, že ti nejkreativnější lidé rozhodně NEJSOU lidé, kteří se nejvíce nudí – bez ohledu na věk?

29,09K

Jeremy Howard24. 8. 11:45

Pamatuje si ještě někdo tento slogan? Mým snem pro Kaggle bylo pomoci udělat z nejlepších expertů na ML velká jména s velkými výplatami, jako jsou sportovní hvězdy. Konečně se to děje – svět si začíná uvědomovat, že hodnota nejlepších lidí v tomto oboru je obrovská.

42,2K

Jeremy Howard24. 8. 05:18

Pro lidi, kteří chtějí spravovat několik boxů, aniž by zvyšovali složitost, zvažte použití nástroje Cluster SSH, jako je ClusterShell nebo Fabric. Pouze posílá příkazy ssh do skupin boxenů paralelně a ukazuje vám konsolidovaný výsledek. Např

@levelsio23. 8. 06:57

Jakou aplikaci mám použít ke správě všech svých malých Hetznerových VPS? Dnes jsem začal přecházet přes svůj první skutečný produkční web Remote OK z mého současného 12 let starého VPS (se všemi mými weby na něm jako Photo AI, Nomad List atd.) na nový Hetzner VPS Každý web na svém vlastním malém VPS je můj plán Ale chci něco, co to všechno spravuje, jako je kontrola zatížení serveru, využití disku, viz verze Ubuntu atd Kokpit?

25,31K

Jeremy Howard23. 8. 09:24

IIUC, někdo prostě dostal entropix do práce a publikoval ho...

Jiawei Zhao23. 8. 04:00

Představujeme DeepConf: Hluboké myšlení s jistotou 🚀 První metoda, jak dosáhnout 99,9 % na AIME 2025 s open-source modely! Pomocí GPT-OSS-120B i bez nástrojů jsme dosáhli této téměř dokonalé přesnosti a zároveň jsme ušetřili až 85 % vygenerovaných tokenů. Přináší také mnoho silných výhod pro paralelní myšlení: 🔥 Zvýšení výkonu: ~10% přesnost napříč modely a datovými sadami ⚡ Mimořádně efektivní: Až o 85 % méně vygenerovaných tokenů 🔧 Plug & play: Funguje s JAKÝMKOLI existujícím modelem - není potřeba žádné školení (také žádné ladění hyperparametrů!) ⭐ Snadné nasazení: Pouze ~50 řádků kódu ve vLLM (viz PR níže) 📚 Papír: 🌐 Projekt: Společná práce s: @FuYichao123 , xuewei_wang, @tydsh (podrobnosti viz v komentářích níže)

77,33K

Jeremy Howard repostoval/a

Peter Steinberger23. 8. 01:07

lol MCP GitHub má ~ 50k token, když existuje dokonale skvělé GH CLI, které mohou modely používat se znalostmi světa, vyžadující ZERO token.

95,96K

Jeremy Howard repostoval/a

Will McGugan22. 8. 22:01

Zveřejněním tweetu "$LANGUAGE je špatný" okamžitě identifikujete jako vývojáře s problémy s dovednostmi a zkušenostmi. Ale nuance se jen zřídka stanou virálními, takže to asi je.

10,93K

Jeremy Howard repostoval/a

the tiny corp22. 8. 13:22

Core 6 dokáže vyjádřit veškerý pohyb.

24,03K

Jeremy Howard repostoval/a

DHH21. 8. 20:26

Umělá inteligence dokonale demonstruje klam utopených nákladů: Ještě jedna výzva "to nefunguje!", pomyslíte si, a ono to vyřeší!! Ale často to nejde a teď jste promarnili 30 minut prosbami, které jste mohli strávit učením, jak to vlastně kurva udělat sami.

342,26K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější