Просто прочитайте газету, і перш за все, це хороша газета! Вони фактично йшли і робили попередню підготовку аж до наступного тренування. Моделі невеликі, але в порівнянні з трильйонами токенів LLM, дані з однієї комірки просто не такі великі. Утримуюча модель арки була розумною. АЛЕ... Справа ось у чому. Це не є серйозним зрушенням у тому, як працює ця сфера. Ні демонстрація нових можливостей, ні зміна парадигми в точності/запам'ятовуванні. Реальність полягає в тому, що дані про експресію генів, навіть на рівні однієї клітини, мають свої обмеження. Більша частина сигналу буде надходити від диференційно експресованих генів: для цього вам, швидше за все, не потрібно робити LLM, щоб витягнути хороші гіпотези. Тож це поступове авансування. Але давайте припустимо, що існує якийсь прихований сигнал, який можна витягнути лише з відповідним контекстом, що ідеально підходить для LLM. Припустимо, ви створюєте модель, яка, на вашу думку, може витягти цю інформацію. Ключове питання: як це перевірити в масштабі? Як я можу перевірити, що ця модель знаходить цікаві речі, які я не зміг би знайти, використовуючи простіші методи? Це справжня проблема, і просто провівши кілька експериментів, ви цього не доведете. Припустимо, ви проводите ці експерименти з валідацією в масштабі, витрачаєте багато доларів, чекаєте багато місяців... І ви розумієте, що модель не така хороша в порівнянні з базовим, як ви думали, що тепер? Чи проводите ви ще один раунд масштабних експериментальних тренувань і повторюєте? Це дорого! Це набагато дорожче, ніж стандартні речі LLM, де ви можете ELO/ранжувати свій шлях на аренах чату та даних користувачів. І саме тому рухати голку в біології так важко. Експериментальний цикл зворотного зв'язку просто вбиває вас. А якщо ви розробляєте терапевтичні засоби? Цикл стає ще довшим, роки або десятиліття, навіть якщо ви хочете виміряти справжні кінцеві точки. Ось гіркий урок біології: аналіз – це король, а біля ліжка – король – обчислювальні методи заведуть вас так далеко без широких експериментальних перевірок. Я щиро вірю, що навколо цього є все, але хто зламає цей код, той і перемагає.