Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ho appena letto il documento e, prima di tutto, è un buon documento! Hanno effettivamente fatto un pre-addestramento fino al post-addestramento a valle. I modelli sono piccoli, ma rispetto ai LLM con trilioni di token, i dati delle singole cellule non sono così grandi. Mantenere l'architettura del modello è stata una mossa intelligente. MA... ecco il punto. Non si tratta di un cambiamento significativo nel modo in cui il campo fa le cose. Né di una dimostrazione di nuove capacità o di un cambiamento paradigmatico in precisione/richiamo. La realtà è che i dati di espressione genica, anche a livello di singola cellula, hanno le loro limitazioni. La maggior parte del segnale proviene da geni espressi in modo differenziale: probabilmente non hai bisogno di fare LLM per estrarre buone ipotesi. Quindi questo è un avanzamento incrementale.
Ma, supponiamo che ci sia qualche segnale nascosto che può essere estratto solo con un contesto rilevante, perfetto per gli LLM. Supponi di creare un modello che pensi possa estrarre queste informazioni. La domanda chiave è: come testare questo su larga scala? Come posso convalidare che questo modello sta trovando cose interessanti che non avrei potuto trovare usando metodi più semplici? Questa è la vera sfida e fare solo un pugno di esperimenti non dimostrerà questo.
Supponiamo che tu faccia questi esperimenti di convalida su larga scala, spendi molti $$, aspetti molti mesi... e ti rendi conto che il modello non è così buono rispetto alla baseline come pensavi, e ora? Fai un altro giro di addestramento sperimentale su larga scala e ripeti? È costoso! È molto più costoso rispetto alle cose standard degli LLM dove puoi ELO/classificare nel chat arena e nei dati degli utenti.
E *questo* è il motivo per cui muovere l'ago nella biologia è così difficile. Il ciclo di feedback sperimentale ti uccide. E se stai progettando terapie? Il ciclo diventa ancora più lungo, anni o decenni anche se vuoi misurare veri endpoint.
Questa è la lezione amara nella biologia: l'assay è re, il bedside è re -- i metodi computazionali ti porteranno solo fino a un certo punto senza ampie convalide sperimentali. Credo nel profondo del mio cuore che ci sia un modo per aggirare questo, ma chiunque riesca a decifrare questo codice vince.
Principali
Ranking
Preferiti

