Acabei de ler o artigo e, antes de mais, é um bom artigo! Eles realmente foram e fizeram pré-treinamento até o pós-treinamento. Os modelos são pequenos, mas comparados aos LLMs de trilhões de tokens, os dados de célula única simplesmente não são tão grandes. Manter a arquitetura do modelo foi inteligente. MAS... aqui está a questão. Não é uma mudança significativa na forma como o campo faz as coisas. Nem uma demonstração de novas capacidades ou uma mudança paradigmática em precisão/revocação. A realidade de tudo isso é que os dados de expressão gênica, mesmo no nível de célula única, têm suas limitações. A maior parte do sinal virá de genes diferencialmente expressos: você provavelmente não precisa fazer LLMs para extrair boas hipóteses. Portanto, este é um avanço incremental. Mas, vamos supor que haja algum sinal oculto que só pode ser extraído com o contexto relevante, perfeito para LLMs. Suponha que você crie um modelo que acha que pode extrair essa informação. A questão chave é: como você testa isso em escala? Como posso validar que este modelo está encontrando coisas interessantes que eu não poderia ter encontrado usando métodos mais simples? Este é o verdadeiro desafio e apenas fazer um punhado de experimentos não provará isso. Suponha que você faça esses experimentos de validação em escala, gaste muito $$, espere muitos meses... e perceba que o modelo não é tão bom em comparação com a linha de base como você pensava, e agora? Você faz outra rodada de treinamento experimental em grande escala e repete? Isso é caro! É muito mais caro do que as coisas padrão de LLM, onde você pode ELO/classificar seu caminho em arenas de chat e dados de usuários. E *é isso* que torna tão difícil mover a agulha na biologia. O ciclo de feedback experimental simplesmente te derruba. E se você está projetando terapias? O ciclo se torna ainda mais longo, anos ou décadas, mesmo se você quiser medir pontos finais verdadeiros. Essa é a amarga lição na biologia: o ensaio é rei, o leito é rei -- métodos computacionais só te levarão até certo ponto sem extensas validações experimentais. Acredito de coração que há uma maneira de contornar isso, mas quem conseguir decifrar esse código vence.