Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Parmita Mishra
CEO @precigenetic. het creëren van motoren om ziekten te bestrijden. Vorige. @penn
Precies waarom we @precigenetic aan het bouwen zijn

pablo16 okt, 22:51
Lees gewoon het artikel, en allereerst, het is een goed artikel! Ze zijn daadwerkelijk gegaan en hebben pre-training gedaan tot aan downstream post-training. De modellen zijn klein, maar vergeleken met trillion token LLM's is enkele celdata gewoon niet zo groot. Het behouden van de modelarchitectuur was slim. MAAR... hier is het punt. Het is geen grote verschuiving in hoe het veld dingen doet. Noch een demonstratie van nieuwe mogelijkheden of een paradigmatische verschuiving in precisie/herinnering. De realiteit is dat genexpressiegegevens, zelfs op het niveau van enkele cellen, zijn beperkingen heeft. Het grootste deel van het signaal zal komen van differentieel tot expressie gebrachte genen: je hoeft waarschijnlijk geen LLM's te doen om goede hypothesen te extraheren. Dus dit is een incrementele vooruitgang.
Maar laten we aannemen dat er een verborgen signaal is dat alleen kan worden geëxtraheerd met relevante context, perfect voor LLM's. Stel dat je een model maakt waarvan je denkt dat het deze informatie kan extraheren. De sleutelvraag is: hoe test je dit op grote schaal? Hoe valideer ik dat dit model interessante dingen vindt die ik niet had kunnen vinden met eenvoudigere methoden? Dit is de echte uitdaging en gewoon een handvol experimenten doen zal dit niet bewijzen.
Stel dat je deze validatie-experimenten op grote schaal doet, je besteedt veel $$, wacht vele maanden... en je realiseert je dat het model niet zo goed is vergeleken met de basislijn als je dacht, wat nu? Doe je een nieuwe ronde van grootschalige experimentele training en herhaal je? Dat is duur! Het is veel duurder dan standaard LLM-dingen waar je je kunt ELO/ranken in chatarena's en gebruikersdata.
En *dit* is waarom het zo moeilijk is om vooruitgang te boeken in de biologie. De experimentele feedbackloop maakt je kapot. En als je therapeutica ontwerpt? De lus wordt zelfs nog langer, jaren of zelfs decennia als je echte eindpunten wilt meten.
Dat is de bittere les in de biologie: assay is koning, bedside is koning -- computationele methoden zullen je maar tot op zekere hoogte helpen zonder uitgebreide experimentele validaties. Ik geloof in mijn hart van harten dat er een manier is om dit te omzeilen, maar wie deze code kraakt, wint.
590
bel me als je gegevens nodig hebt 📞

Google DeepMind5 uur geleden
We helpen bij het identificeren van kankercellen die zich verbergen voor het immuunsysteem van het lichaam. 🧬
Gebaseerd op onze Gemma-familie van open modellen, heeft C2S-Scale 27B een nieuw potentieel pad voor kankertherapie geïdentificeerd - een hypothese die we in het lab hebben gevalideerd met wetenschappers van @Yale University. 🧵

12
Boven
Positie
Favorieten