Lue vain lehti, ja ensinnäkin se on hyvä paperi! He itse asiassa menivät ja tekivät esikoulutusta aina koulutuksen jälkeiseen vaiheeseen asti. Mallit ovat pieniä, mutta verrattuna biljoonaan token-LLM:ään, yhden solun data ei vain ole niin suuri. Mallikaaren säilyttäminen oli fiksua. MUTTA... Tässä on asia. Se ei ole suuri muutos siinä, miten ala tekee asioita. Ei myöskään uusien ominaisuuksien esittely tai paradigmaattinen muutos tarkkuudessa/muistamisessa. Kaiken todellisuus on, että geeniekspressiotiedoilla, jopa yksittäisten solujen tasolla, on rajoituksensa. Suurin osa signaalista tulee differentiaalisesti ilmentyneistä geeneistä: sinun ei todennäköisesti tarvitse tehdä LLM:iä saadakseen hyviä hypoteeseja. Tämä on siis asteittainen edistysaskel. Oletetaan kuitenkin, että on olemassa jokin piilotettu signaali, joka voidaan poimia vain asiaankuuluvalla kontekstilla, joka sopii täydellisesti LLM:ille. Oletetaan, että luot mallin, jonka uskot voivan poimia nämä tiedot. Keskeinen kysymys on: miten testaat tätä mittakaavassa? Miten vahvistan, että tämä malli löytää mielenkiintoisia asioita, joita en olisi löytänyt yksinkertaisemmilla menetelmillä? Tämä on todellinen haaste, eikä vain kourallinen kokeita todista tätä. Oletetaan, että teet nämä validointikokeet laajassa mittakaavassa, käytät paljon $$, odotat useita kuukausia... Ja huomaat, että malli ei ole niin hyvä verrattuna lähtötasoon kuin luulit, mitä nyt? Teetkö toisen kierroksen suuren mittakaavan kokeellista koulutusta ja toistatko? Se on kallista! Se on paljon kalliimpaa kuin tavalliset LLM-jutut, joissa voit ELO/sijoittua tiesi chat-areenoilla ja käyttäjätiedoissa. Ja *tästä* neulan liikuttaminen biologiassa on niin vaikeaa. Kokeellinen palautesilmukka vain tappaa sinut. Entä jos suunnittelet hoitoja? Silmukka pitenee entisestään, vuosia tai vuosikymmeniä, vaikka haluaisit mitata todellisia päätepisteitä. Tämä on biologian katkera opetus: määritys on kuningas, sängyn vieressä on kuningas -- laskennalliset menetelmät vievät sinut vain tiettyyn pisteeseen ilman laajoja kokeellisia validointeja. Uskon sydämessäni, että tämän ympärillä on kaukana, mutta se, joka murtaa tämän koodin, voittaa.