Je viens de lire le document, et tout d'abord, c'est un bon document ! Ils ont en fait fait un pré-entraînement jusqu'à un post-entraînement en aval. Les modèles sont petits mais comparés aux LLMs de trillion de tokens, les données de cellules uniques ne sont tout simplement pas si volumineuses. Conserver l'architecture du modèle était intelligent. MAIS... voici le truc. Ce n'est pas un changement majeur dans la façon dont le domaine fonctionne. Ni une démonstration de nouvelles capacités ou un changement paradigmatique en précision/rappel. La réalité est que les données d'expression génique, même au niveau des cellules uniques, ont leurs limites. La plupart du signal proviendra des gènes exprimés de manière différentielle : vous n'avez probablement pas besoin de faire des LLMs pour cela afin d'extraire de bonnes hypothèses. Donc, c'est un progrès incrémental. Mais, supposons qu'il y ait un signal caché qui ne peut être extrait qu'avec un contexte pertinent, parfait pour les LLMs. Supposons que vous créiez un modèle que vous pensez capable d'extraire cette information. La question clé est : comment testez-vous cela à grande échelle ? Comment puis-je valider que ce modèle trouve des choses intéressantes que je n'aurais pas pu trouver en utilisant des méthodes plus simples ? C'est le véritable défi et faire quelques expériences ne prouvera pas cela. Supposons que vous fassiez ces expériences de validation à grande échelle, que vous dépensiez beaucoup d'argent, que vous attendiez de nombreux mois... et que vous réalisiez que le modèle n'est pas aussi bon par rapport à la ligne de base que vous le pensiez, que faire maintenant ? Faites-vous un autre tour de formation expérimentale à grande échelle et répétez ? C'est coûteux ! C'est beaucoup plus coûteux que les choses standard des LLM où vous pouvez ELO/ranger votre chemin dans les arènes de chat et les données des utilisateurs. Et *c'est* pourquoi faire avancer les choses en biologie est si difficile. La boucle de rétroaction expérimentale vous tue. Et si vous concevez des thérapeutiques ? La boucle devient encore plus longue, des années ou des décennies même si vous voulez mesurer de véritables points finaux. C'est la leçon amère en biologie : l'essai est roi, le lit d'hôpital est roi -- les méthodes computationnelles ne vous mèneront que jusqu'à un certain point sans validations expérimentales extensives. Je crois de tout mon cœur qu'il existe un moyen de contourner cela, mais celui qui déchiffrera ce code gagnera.