Bare les avisen, og først og fremst er det en god avis! De gikk faktisk og gjorde fortrening helt til nedstrøms etter trening. Modellene er små, men sammenlignet med billioner token LLM-er, er enkeltcelledata bare ikke så store. Å beholde modellbuen var smart. MEN... Her er tingen. Det er ikke et stort skifte i hvordan feltet gjør ting. Heller ikke en demonstrasjon av nye evner eller et paradigmatisk skifte i presisjon/tilbakekalling. Realiteten i det hele er at genuttrykksdata, selv på enkeltcellenivå, har sine begrensninger. Det meste av signalet vil komme fra differensielt uttrykte gener: du trenger sannsynligvis ikke å gjøre LLM-er for at dette skal trekke ut gode hypoteser. Så dette er et trinnvis fremskritt. Men la oss anta at det er et skjult signal som bare kan trekkes ut med relevant kontekst, perfekt for LLM-er. Nøkkelspørsmålet er: hvordan tester du dette i stor skala? Hvordan validerer jeg at denne modellen finner interessante ting som jeg ikke kunne ha funnet ved hjelp av enklere metoder? Dette er den virkelige utfordringen, og bare å gjøre en håndfull eksperimenter vil ikke bevise dette. La oss si at du gjør disse valideringseksperimentene i stor skala, du bruker mange $$, venter mange måneder ... Og du innser at modellen ikke er så god sammenlignet med baseline som du trodde, hva nå? Gjør du en ny runde med eksperimentell trening i stor skala og gjentar? Det er dyrt! Det er mye dyrere enn standard LLM-ting hvor du kan ELO/rangere deg i chat-arenaer og brukerdata. Og *dette* er grunnen til at det er så vanskelig å flytte nålen i biologi. Den eksperimentelle tilbakemeldingssløyfen dreper deg bare. Og hvis du designer terapier? Sløyfen blir enda lengre, år eller tiår selv om du vil måle sanne endepunkter. Det er den bitre lærdommen i biologi: analyse er konge, sengekant er konge - beregningsmetoder vil bare ta deg så langt uten omfattende eksperimentelle valideringer. Jeg tror innerst inne at det er borte rundt dette, men den som knekker denne koden vinner.