Właśnie przeczytałem artykuł i przede wszystkim, to dobry artykuł! Faktycznie zrobili wstępne szkolenie aż do późniejszego szkolenia. Modele są małe, ale w porównaniu do LLM-ów z trylionem tokenów, dane z pojedynczych komórek po prostu nie są aż tak duże. Zachowanie architektury modelu było mądre. ALE... oto rzecz. To nie jest znacząca zmiana w tym, jak dziedzina to robi. Ani demonstracja nowych możliwości czy paradygmatyczna zmiana w precyzji/odpowiedzi. Rzeczywistość jest taka, że dane ekspresji genów, nawet na poziomie pojedynczej komórki, mają swoje ograniczenia. Większość sygnału pochodzi z genów różnicowo wyrażanych: prawdopodobnie nie musisz używać LLM-ów, aby wydobyć dobre hipotezy. Więc to jest postęp inkrementalny. Ale załóżmy, że istnieje jakiś ukryty sygnał, który można wydobyć tylko w odpowiednim kontekście, idealnym dla LLM-ów. Załóż, że tworzysz model, który według ciebie może wydobyć te informacje. Kluczowe pytanie brzmi: jak to przetestować na dużą skalę? Jak mogę zweryfikować, że ten model znajduje interesujące rzeczy, których nie mogłem znaleźć przy użyciu prostszych metod? To jest prawdziwe wyzwanie, a zrobienie kilku eksperymentów nie udowodni tego. Załóżmy, że przeprowadzasz te eksperymenty walidacyjne na dużą skalę, wydajesz dużo $$, czekasz wiele miesięcy... i zdajesz sobie sprawę, że model nie jest tak dobry w porównaniu do podstawy, jak myślałeś, co teraz? Czy robisz kolejną rundę dużego szkolenia eksperymentalnego i powtarzasz? To kosztowne! Jest to znacznie droższe niż standardowe rzeczy LLM, gdzie możesz ELO/rankować w arenach czatu i danych użytkowników. I *to* jest powód, dla którego przesunięcie igły w biologii jest tak trudne. Pętla sprzężenia zwrotnego w eksperymentach po prostu cię zabija. A jeśli projektujesz terapie? Pętla staje się jeszcze dłuższa, lata lub dekady, nawet jeśli chcesz zmierzyć prawdziwe punkty końcowe. To gorzka lekcja w biologii: test jest królem, łóżko szpitalne jest królem -- metody obliczeniowe zabiorą cię tylko tak daleko bez rozległych walidacji eksperymentalnych. W głębi serca wierzę, że jest sposób, aby to obejść, ale kto złamie ten kod, ten wygrywa.