Chỉ cần đọc tài liệu, và trước hết, đó là một tài liệu tốt! Họ thực sự đã thực hiện việc tiền huấn luyện cho đến khi huấn luyện sau. Các mô hình thì nhỏ nhưng so với các LLM với một triệu token, dữ liệu tế bào đơn lẻ thì không lớn đến vậy. Việc giữ nguyên kiến trúc mô hình là một quyết định thông minh. NHƯNG... đây là vấn đề. Đây không phải là một sự thay đổi lớn trong cách mà lĩnh vực này thực hiện. Cũng không phải là một sự chứng minh về khả năng mới hay một sự thay đổi mô hình trong độ chính xác/nhớ. Thực tế là dữ liệu biểu hiện gen, ngay cả ở cấp độ tế bào đơn lẻ, có những giới hạn của nó. Hầu hết tín hiệu sẽ đến từ các gen được biểu hiện khác nhau: bạn có thể không cần phải sử dụng LLM để rút ra những giả thuyết tốt. Vì vậy, đây là một bước tiến từng bước. Nhưng, hãy giả sử rằng có một số tín hiệu ẩn mà chỉ có thể được rút ra với ngữ cảnh liên quan, hoàn hảo cho LLM. Giả sử bạn tạo ra một mô hình mà bạn nghĩ có thể rút ra thông tin này. Câu hỏi then chốt là: làm thế nào để bạn kiểm tra điều này trên quy mô lớn? Làm thế nào để tôi xác thực rằng mô hình này đang tìm ra những điều thú vị mà tôi không thể tìm thấy bằng các phương pháp đơn giản hơn? Đây là thách thức thực sự và chỉ thực hiện một vài thí nghiệm sẽ không chứng minh điều này. Giả sử bạn thực hiện các thí nghiệm xác thực này trên quy mô lớn, bạn chi rất nhiều $$, chờ đợi nhiều tháng... và bạn nhận ra rằng mô hình không tốt như bạn nghĩ so với cơ sở. Vậy bây giờ thì sao? Bạn có thực hiện một vòng huấn luyện thí nghiệm quy mô lớn khác và lặp lại không? Điều đó tốn kém! Nó tốn kém hơn nhiều so với các thứ LLM tiêu chuẩn, nơi bạn có thể ELO/xếp hạng trong các đấu trường trò chuyện và dữ liệu người dùng. Và *điều này* là lý do tại sao việc thay đổi tình hình trong sinh học lại khó khăn như vậy. Vòng phản hồi thí nghiệm chỉ khiến bạn mệt mỏi. Và nếu bạn đang thiết kế các liệu pháp? Vòng lặp trở nên dài hơn, có thể là nhiều năm hoặc hàng thập kỷ nếu bạn muốn đo lường các điểm cuối thực sự. Đó là bài học đắng trong sinh học: xét nghiệm là vua, giường bệnh là vua -- các phương pháp tính toán chỉ có thể đưa bạn đi xa đến vậy mà không có các xác thực thí nghiệm rộng rãi. Tôi tin rằng trong sâu thẳm trái tim mình, có một cách để vượt qua điều này, nhưng bất kỳ ai giải mã được điều này sẽ chiến thắng.