Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Просто прочитал статью, и прежде всего, это хорошая статья! Они действительно провели предобучение вплоть до последующего обучения. Модели небольшие, но по сравнению с LLM на триллион токенов, данные о единичных клетках просто не так велики. Сохранение архитектуры модели было умным решением. НО... вот в чем дело. Это не значительный сдвиг в том, как работает эта область. И не демонстрация новых возможностей или парадигматический сдвиг в точности/отзывчивости. Реальность такова, что данные о генетической экспрессии, даже на уровне единичных клеток, имеют свои ограничения. Большая часть сигнала будет исходить от дифференциально экспрессируемых генов: вам, вероятно, не нужно использовать LLM для этого, чтобы извлечь хорошие гипотезы. Так что это инкрементальный прогресс.
Но давайте предположим, что есть какой-то скрытый сигнал, который можно извлечь только с соответствующим контекстом, идеально подходящим для LLM. Предположим, вы создаете модель, которая, как вы думаете, может извлечь эту информацию. Ключевой вопрос: как вы тестируете это в масштабах? Как я могу подтвердить, что эта модель находит интересные вещи, которые я не мог бы найти с помощью более простых методов? Это настоящая проблема, и просто провести несколько экспериментов не докажет этого.
Предположим, вы проводите эти валидационные эксперименты в масштабах, тратите много $$, ждете много месяцев... и понимаете, что модель не так хороша по сравнению с базовым уровнем, как вы думали, что теперь? Вы проводите еще один раунд крупномасштабного экспериментального обучения и повторяете? Это дорого! Это гораздо дороже, чем стандартные LLM, где вы можете ELO/ранжировать себя в чат-аренах и пользовательских данных.
И *это* причина, по которой сдвинуть ситуацию в биологии так сложно. Экспериментальная обратная связь просто убивает вас. А если вы разрабатываете терапевтические средства? Цикл становится еще длиннее, годы или десятилетия, даже если вы хотите измерить истинные конечные точки.
Это горький урок в биологии: анализ — это король, клиника — это король — вычислительные методы помогут вам только до определенной степени без обширной экспериментальной валидации. Я верю всем сердцем, что есть способ обойти это, но тот, кто разгадает этот код, победит.
Топ
Рейтинг
Избранное

