Tầm quan trọng của một SDK dựa trên đám mây cho robot có thể không nghe có vẻ hấp dẫn, nhưng nó thực sự rất quan trọng cho việc phát triển lĩnh vực này. Nếu bạn ở trong các vòng tròn công nghệ, bạn sẽ nghe về các nền tảng đám mây hàng ngày, điều này hiếm khi khơi dậy trí tưởng tượng. Tuy nhiên, đối với các robot hình người và các nhà điều hành trong thế giới vật lý, một bộ công cụ mô phỏng đám mây là một nhu cầu cốt lõi cho bất kỳ nhà phát triển nào đang cố gắng mở rộng quy mô đào tạo của họ. Các mô phỏng thế giới ảo chính xác là một trong những hàng hóa được tìm kiếm nhiều nhất trong lĩnh vực robot hiện nay. Các nhà nghiên cứu đang thực hiện vô số thí nghiệm để xác định những kết hợp nào của dữ liệu thực và dữ liệu tổng hợp tạo ra kết quả chính xác nhất cho các nhiệm vụ đào tạo. Có, các công ty như Tesla đã có một lợi thế lớn nhờ vào dữ liệu mạng nơ-ron mà họ đã thu thập từ các đội xe của mình, mặc dù dữ liệu này chỉ là thông tin thô cho đến khi nó được đưa vào thực tiễn thông qua các mô phỏng đào tạo thực tế. Đối với những người khác, việc có được mức độ dữ liệu đó hoặc thậm chí phần cứng để cung cấp cho nó chỉ đơn giản là không phải là một lựa chọn trừ khi bạn là một công ty được tài trợ lớn. Đây là lúc mô phỏng đám mây xuất hiện. Bằng cách chuyển đào tạo và thử nghiệm robot vào các môi trường ảo dựa trên đám mây, bất kỳ ai cũng có thể truy cập vào tính toán cần thiết và mở rộng quy mô. Một nền tảng đám mây có thể tập trung việc chia sẻ các mô phỏng, kết quả và dữ liệu đó. Bạn đang thực sự trừu tượng hóa việc truy cập cửa đóng mà các công ty trị giá hàng tỷ đô la có, các thành phần phần cứng rộng lớn được sử dụng trong các phòng thí nghiệm và đưa các tập dữ liệu ra ánh sáng công khai nơi các đóng góp mã nguồn mở trở thành một lợi thế tổng thể cho đổi mới. Mô hình kinh doanh này đã chứng minh được giá trị của nó với LeRobot của Hugging Face (sáng kiến mã nguồn mở) hợp tác với Nvidia để kết nối các khung của họ để các nhà nghiên cứu có thể chia sẻ các mô hình, tập dữ liệu và môi trường mô phỏng trên đám mây. Mục tiêu cuối cùng là tạo ra một vòng quay dữ liệu, khi mọi người đóng góp dữ liệu mô phỏng và chính sách đã được đào tạo vào các kho mở, nó thúc đẩy tiến trình của những người khác, từ đó tạo ra nhiều dữ liệu có thể truy cập toàn cầu hơn. Nhiều công việc đang được đổ vào điều này thông qua việc thu hẹp khoảng cách "mô phỏng đến thực tế". Các mô phỏng thường không đạt yêu cầu thực tế, robot sẽ học các hành vi trong một thế giới ảo mà không chuyển giao được vào thế giới thực, vì vật lý hoặc hình ảnh không đủ chính xác. Khoảng cách đó hiện đang thu hẹp nhanh chóng nhờ vào độ trung thực mô phỏng tốt hơn và các phương pháp đào tạo lai. Hầu hết các mô hình nền tảng mới nhất trong lĩnh vực robot (như Isaac GROOT của NVIDIA và Helix VLA của Figure) sử dụng kiến trúc hệ thống kép mô phỏng nhận thức của con người. Điều này cũng áp dụng cho cách họ đào tạo dữ liệu trong các mô phỏng thế giới. Một phần của mô hình được đào tạo trên dữ liệu trình diễn của con người từ thế giới thực, trong khi phần khác được đào tạo trên một lượng lớn dữ liệu tổng hợp được tạo ra thông qua các mô phỏng độ trung thực cao. Bằng cách kết hợp đào tạo vật lý và mô phỏng, mô hình học được các kỹ năng chính xác hơn, có khả năng tổng quát tốt hơn. Dữ liệu thực cung cấp sự thật trong AI, trong khi dữ liệu mô phỏng cung cấp quy mô và sự đa dạng mà không thực tế để thu thập trong thế giới vật lý. Các nhà phát triển thậm chí có thể tinh chỉnh hoặc đào tạo lại các mô hình với dữ liệu thực hoặc tổng hợp bổ sung cho các nhiệm vụ cụ thể, làm cho quy trình đào tạo cực kỳ linh hoạt. Helix VLA của Figure, sử dụng phương pháp Hệ thống 1/Hệ thống 2, được đào tạo chỉ với hàng trăm giờ điều khiển từ xa (được tăng cường bởi mô phỏng và gán nhãn thông minh), Helix có thể xử lý các nhiệm vụ gia đình mới thông qua ngôn ngữ tự nhiên mà không cần mã hóa tùy chỉnh. Chứng minh cách các mô hình đa phương thức và đào tạo tổng hợp giảm nhu cầu dữ liệu một cách đáng kể. @codecopenflow đang áp dụng cùng một nguyên tắc với Octo, một VLA mở tích hợp vào SDK Optr của nó, cho phép nhận thức đa camera và điều khiển hướng dẫn bằng ngôn ngữ với tập dữ liệu nhỏ hơn và tính toán thấp hơn. ...