剛讀完這篇論文,首先,它是一篇好論文!他們實際上進行了從預訓練到下游後訓練的全過程。模型雖然小,但與萬億標記的 LLM 相比,單細胞數據實在不算大。保留模型架構是明智的。但……事情是這樣的。這並不是該領域做事方式的重大轉變。也不是新能力的展示或精確度/召回率的範式轉變。事實是,即使在單細胞層面,基因表達數據也有其局限性。大多數信號將來自差異表達的基因:你可能不需要使用 LLM 來提取良好的假設。因此,這是一個漸進的進步。 但是,假設有一些隱藏的信號只能在相關上下文中提取,這正適合 LLM。假設你創建了一個模型,你認為可以提取這些信息。關鍵問題是:你如何在大規模上測試這一點?我如何驗證這個模型是否發現了我無法使用更簡單的方法找到的有趣事物?這才是真正的挑戰,僅僅做幾個實驗並不能證明這一點。 假設你在大規模上進行這些驗證實驗,花費大量 $$,等待幾個月……然後你意識到這個模型與基線相比並沒有你想的那麼好,那麼現在該怎麼辦?你會再進行一輪大規模的實驗訓練並重複嗎?這樣成本高昂!這比標準的 LLM 事情要貴得多,因為你可以在聊天領域和用戶數據中進行 ELO/排名。 而 *這* 就是為什麼在生物學上推動進展如此困難。實驗反饋循環會讓你崩潰。如果你在設計治療方法呢?這個循環變得更長,甚至需要幾年或幾十年才能測量真正的終點。 這是生物學中的苦澀教訓:檢測是王道,臨床是王道——計算方法在沒有廣泛實驗驗證的情況下只能走到這裡。我深信,總有辦法繞過這一點,但誰能破解這個代碼,誰就贏了。