Baca saja korannya, dan pertama-tama, ini makalah yang bagus! Mereka benar-benar pergi dan melakukan pra-pelatihan sampai ke hilir pasca-pelatihan. Modelnya kecil tetapi dibandingkan dengan triliunan token LLM, data sel tunggal tidak terlalu besar. Mempertahankan lengkungan model itu cerdas. TAPI... Inilah masalahnya. Ini bukan perubahan besar dalam cara bidang melakukan sesuatu. Juga bukan demonstrasi kemampuan baru atau pergeseran paradigmatik dalam presisi/ingatan. Kenyataannya adalah bahwa data ekspresi gen, bahkan pada tingkat sel tunggal, memiliki keterbatasan. Sebagian besar sinyal akan berasal dari gen yang diekspresikan secara diferensial: Anda mungkin tidak perlu melakukan LLM untuk ini untuk mengekstrak hipotesis yang baik. Jadi ini adalah kemajuan bertahap. Tapi, mari kita asumsikan bahwa ada beberapa sinyal tersembunyi yang hanya dapat diekstraksi dengan konteks yang relevan, sempurna untuk LLM. Asumsikan Anda membuat model yang menurut Anda dapat mengekstrak informasi ini. Pertanyaan kuncinya adalah: bagaimana Anda mengujinya dalam skala besar? Bagaimana cara memvalidasi bahwa model ini menemukan hal-hal menarik yang tidak dapat saya temukan menggunakan metode yang lebih sederhana? Ini adalah tantangan nyata dan hanya melakukan beberapa eksperimen tidak akan membuktikan hal ini. Misalkan Anda melakukan eksperimen validasi ini dalam skala besar, Anda menghabiskan banyak $$, menunggu berbulan-bulan... Dan Anda menyadari modelnya tidak sebagus yang Anda pikirkan, bagaimana sekarang? Apakah Anda melakukan putaran pelatihan eksperimental skala besar dan mengulanginya? Harganya mahal! Ini jauh lebih mahal daripada hal-hal LLM standar di mana Anda dapat ELO/memberi peringkat di arena obrolan dan data pengguna. Dan *ini* adalah mengapa menggerakkan jarum dalam biologi sangat sulit. Loop umpan balik eksperimental hanya membunuh Anda. Dan jika Anda merancang terapi? Perulangan menjadi lebih panjang, bertahun-tahun atau puluhan tahun bahkan jika Anda ingin mengukur titik akhir yang sebenarnya. Itulah pelajaran pahit dalam biologi: pengujian adalah raja, samping tempat tidur adalah raja - metode komputasi hanya akan membawa Anda sejauh ini tanpa validasi eksperimental yang ekstensif. Saya percaya dalam hati saya bahwa ada yang jauh di sekitar ini, tetapi siapa pun yang memecahkan kode ini menang.