il motivo per cui Cursor e Windsurf hanno rilasciato modelli ottimizzati per la velocità è che è molto più fattibile rispetto alla costruzione di un modello fondamentale che spinge l'intelligenza 1. prendi Qwen3 e affinalo tramite RL sul tuo harness 2. mettilo su hardware Cerebras (o GPU ottimizzata) 3. lascia che quel modello medio-intelligente e super-veloce si sviluppi per le aziende di agenti di codifica, se vuoi portare qualcosa di valore sul mercato, costruire un nuovo modello fondamentale è di ordini di grandezza più difficile rispetto all'affinamento di un modello aperto e all'ottimizzazione dell'inferenza. francamente, è il modo efficiente per rilasciare qualcosa che si avvicina al confine di Pareto e mi piace che le aziende di agenti di codifica stiano iniziando a partecipare. ma non scambiare questo per le aziende di agenti di codifica che dichiarano "medio intelligente ma veloce > altamente intelligente ma lento"