刚读完这篇论文,首先,它是一篇好论文!他们实际上进行了预训练,一直到下游的后训练。模型虽然小,但与万亿标记的LLM相比,单细胞数据实在不算大。保留模型架构是明智的。但是……事情是这样的。这并不是该领域做事方式的重大转变。也不是新能力的展示或精确度/召回率的范式转变。现实是,基因表达数据,即使在单细胞水平上,也有其局限性。大多数信号将来自差异表达的基因:你可能不需要使用LLM来提取好的假设。所以这只是一个渐进的进步。 但是,假设有一些隐藏的信号只能通过相关上下文提取,非常适合LLM。假设你创建了一个模型,你认为可以提取这些信息。关键问题是:你如何在大规模上测试这一点?我如何验证这个模型发现了我无法通过更简单的方法找到的有趣事物?这才是真正的挑战,仅仅做几次实验是无法证明这一点的。 假设你在大规模上进行这些验证实验,花费大量$$,等待许多个月……然后你意识到这个模型与基线相比并没有你想象的那么好,那现在怎么办?你还要进行另一轮大规模实验训练并重复吗?这太贵了!这比标准的LLM更贵,因为你可以在聊天领域和用户数据中进行ELO/排名。 而*这*就是为什么在生物学上推动进展如此困难。实验反馈循环会让你崩溃。如果你在设计治疗方案呢?这个循环变得更长,甚至需要数年或数十年才能测量真正的终点。 这是生物学中的苦涩教训:检测是王,临床是王——计算方法在没有广泛实验验证的情况下只能走到这一步。我深信不疑地认为有办法解决这个问题,但谁能破解这个代码,谁就赢了。