L'importanza di un SDK basato su cloud per la robotica potrebbe non sembrare affascinante, ma è assolutamente cruciale per far avanzare il settore. Se sei nei circoli tecnologici, sentirai parlare di piattaforme cloud ogni giorno, che raramente suscitano l'immaginazione. Eppure, per i robot umanoidi e gli operatori nel mondo fisico, un toolkit di simulazione cloud è una necessità fondamentale per qualsiasi sviluppatore che cerca di scalare il proprio addestramento. Simulazioni accurate di mondi virtuali sono una delle merci più ricercate nella robotica in questo momento. I ricercatori stanno conducendo esperimenti senza fine per determinare quali combinazioni di dati reali e sintetici generano i risultati più precisi per i compiti di addestramento. Sì, aziende come Tesla hanno un enorme vantaggio grazie ai dati delle reti neurali che hanno raccolto dalle loro flotte, anche se questi dati sono semplicemente informazioni grezze fino a quando non vengono messi in pratica attraverso simulazioni di addestramento realistiche. Per tutti gli altri, acquisire quel livello di dati o anche l'hardware per alimentarlo non è un'opzione a meno che tu non sia un'azienda con finanziamenti massicci. È qui che entra in gioco la simulazione cloud. Spostando l'addestramento e il testing dei robot in ambienti virtuali basati su cloud, chiunque può accedere al calcolo necessario e scalare. Una piattaforma cloud può centralizzare la condivisione di quelle simulazioni, risultati e dati. Stai essenzialmente astrando l'accesso chiuso a cui queste aziende da miliardi di dollari hanno accesso, i componenti hardware estesi utilizzati nei laboratori e portando i dataset alla luce pubblica dove i contributi open source diventano un +EV complessivo per l'innovazione. Questo modello di business si sta già dimostrando efficace con l'iniziativa open source LeRobot di Hugging Face che collabora con Nvidia per connettere i loro framework in modo che i ricercatori possano condividere modelli, dataset e ambienti di simulazione nel cloud. L'obiettivo finale è creare un volano di dati, poiché le persone contribuiscono con dati di simulazione e politiche addestrate a repository aperti, accelerando i progressi degli altri, generando a sua volta più dati accessibili a livello globale. Molto lavoro viene canalizzato in questo attraverso la chiusura del divario "sim to real". I simulatori spesso non raggiungevano la realtà, i robot imparavano comportamenti in un mondo virtuale che non si trasferivano nel mondo reale, perché la fisica o i visual non erano abbastanza accurati. Quel divario si sta ora chiudendo rapidamente grazie a una migliore fedeltà di simulazione e approcci di addestramento ibridi. La maggior parte dei modelli fondativi più recenti nella robotica (come Isaac GROOT di NVIDIA e Helix VLA di Figure) utilizza un'architettura a sistema duale che imita la cognizione umana. Lo stesso vale per come stanno addestrando i dati nelle simulazioni mondiali. Una parte del modello è addestrata su dati di dimostrazione umana dal mondo reale, mentre un'altra parte è addestrata su una quantità massiccia di dati sintetici generati tramite simulatori ad alta fedeltà. Combinando addestramento fisico e simulato, il modello apprende abilità accurate che si generalizzano meglio. I dati reali forniscono verità nell'IA, mentre i dati simulati forniscono la scala e la varietà che è impraticabile raccogliere nel mondo fisico. Gli sviluppatori possono anche affinare o post-addestrare modelli con dati reali o sintetici aggiuntivi per compiti specifici, rendendo la pipeline di addestramento estremamente flessibile. Helix VLA di Figure, che utilizza l'approccio Sistema 1/Sistema 2, è addestrato solo su centinaia di ore di teleoperazione (aumentate da simulazione e etichettatura intelligente), Helix può gestire nuovi compiti domestici attraverso il linguaggio naturale senza codifica personalizzata. Dimostrando come i modelli multimodali e l'addestramento sintetico riducano drasticamente le esigenze di dati. @codecopenflow sta applicando lo stesso principio con Octo, un VLA open integrato nel suo SDK Optr, abilitando la percezione multi-camera e il controllo guidato dal linguaggio con dataset molto più piccoli e un calcolo inferiore. ...