論文を読むだけで、まず良い論文です!彼らは実際に行って、下流のポストトレーニングまで行っていました。モデルは小さいですが、1兆のトークンLLMと比較すると、単一セルのデータはそれほど大きくありません。モデルアーチの保持はスマートでした。だがしかし。。。これが問題です。これは、この分野のやり方に大きな変化はありません。また、新機能のデモンストレーションや精度/再現率のパラダイムシフトでもありません。現実には、遺伝子発現データには、単一細胞レベルであっても限界があります。シグナルのほとんどは差次的に発現する遺伝子から来るため、良い仮説を抽出するためにLLMを行う必要はないでしょう。したがって、これは段階的な進歩です。 ただし、LLM に最適な、関連するコンテキストでのみ抽出できる隠れたシグナルがあると仮定しましょう。この情報を抽出できると思われるモデルを作成するとします。重要な問題は、これを大規模にテストする方法です。このモデルが、より単純な方法では見つけられなかった興味深いものを見つけていることを検証するにはどうすればよいですか?これが本当の課題であり、ほんの一握りの実験をするだけではこれを証明することはできません。 これらの検証実験を大規模に実行し、大量の$$を費やし、何ヶ月も待ったとします...そして、モデルがベースラインと比較して思ったほど良くないことに気づきましたが、今はどうしますか?大規模な実験トレーニングをもう一度行って繰り返すのですか?高すぎます!これは、チャット アリーナやユーザー データで ELO やランク付けできる標準的な LLM よりもはるかに高価です。 そして、生物学の針を動かすことが非常に難しい理由です。実験的なフィードバックループはあなたを殺すだけです。そして、治療薬を設計しているなら?ループはさらに長くなり、真のエンドポイントを測定したい場合でも、数年または数十年になります。 それが生物学における苦い教訓です:アッセイは王様であり、ベッドサイドは王様です--計算方法では、広範な実験的検証がなければ、ここまでしか行けません。私は心の中で、この辺りには遠くにあると信じていますが、この暗号を解読した人が勝ちです。