Latência = física. A maior parte do "atraso de IA" não é código, é distância. Pense no ping dos jogos. A inferência quer ser executada perto do utilizador, não em algum centro de dados distante. É por isso que redes com GPUs na periferia reduzem significativamente a latência. DeAI é a CDN para inteligência.