Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Thật sự thì thật điên rồ khi tôi có khung đào tạo học tăng cường chính sách với pixel nhanh nhất trên toàn thế giới, với 100k tam giác và 16k lưới độc nhất và 16k thế giới độc nhất. Tất cả trên một chiếc 4090. 10 phút cho các nhiệm vụ dễ.

Có một vài điều tuyệt vời về nó. Các truy vấn rất nhanh về các thuộc tính thế giới liên quan đến vị trí của các vật thể, các thuộc tính như bề mặt gần nhất là gì. Bộ nhớ không bị tràn, có thể mở rộng lên đến 100k thế giới độc nhất trong bộ nhớ nếu tôi muốn, bằng cách gom tài sản lại. Tạo ra nội dung quy trình trực tiếp.

Tài sản plug and play cho thế giới. Tôi có thể tạo ra các thế giới mesh theo quy trình với manifoldcad nếu tôi muốn, và tiếp tục tạo ra các thế giới mới trong quá trình huấn luyện. Nhiều chính sách gặp khó khăn trong việc ghi nhớ nhưng không phải của tôi. Mỗi tập có thể là một thế giới mới nếu tôi muốn.

Các sơ đồ kết xuất tùy chỉnh để tăng tốc độ đào tạo. Tôi có thể thực hiện kết xuất foveated để có thể học RL một cách thực tế như một con mắt, di chuyển xung quanh để xác định vị trí của tác nhân. Và nó thực sự học. 1m, 2m bước mỗi giây. Với hai GPU, tôi có thể thực hiện 12 thí nghiệm trong một giờ.

Tôi có thể có khả năng nhận thức chiều sâu miễn phí nhờ vào động cơ thế giới của mình. Tôi có thể mô hình hóa và vật lý mà tôi muốn bằng cách tiêm một hàm pytorch thực hiện các phép toán theo lô trên mọi thế giới. *Bởi vì* tôi có thể thực hiện rất nhiều thí nghiệm với tốc độ cực nhanh như vậy, và nó rất có thể cấu hình, tôi đang học được rất nhiều.

Tôi đã huấn luyện một mô hình để khám phá một căn hộ chỉ với BA truy vấn độ sâu. Có dễ không? Không. Nó đã mất rất nhiều thí nghiệm. Nhưng vì tôi có thể thực hiện 100 lần một ngày nên tôi tiến bộ gấp 100 lần. Tôi đã tìm ra cách giữ nó juuuuust đúng *bởi vì* tiến độ của tôi nhanh gấp 100 lần so với bạn.

Tôi có mã mà tìm kiếm lưới qua mọi góc độ và tôi có mã mà hiển thị hành vi của chính sách và tôi có mã mà chạy thống kê trên tất cả chúng và cập nhật trực tiếp một biểu đồ để tôi theo dõi và tôi có mã mà chạy nhiều thí nghiệm trên nhiều máy của tôi

Tôi đã làm việc cơ bản về điều này trong tổng cộng 2 tháng, bị gián đoạn bởi công việc phần cứng và phần mềm. Các buổi huấn luyện của tôi trước đây mất 10 giờ và bây giờ chỉ mất 10 phút. Tôi không nghĩ bạn thực sự hiểu điều này có nghĩa là gì. 10 phút

Mẹ tôi đã từng viết c++ cho phần mềm ngân hàng giao dịch vào những năm 90 và thời gian biên dịch của bà ấy thì lâu hơn. Toàn bộ vòng lặp huấn luyện của tôi trên các THẾ GIỚI ĐƯỢC RENDER HÀNH ĐỘNG nhanh hơn thời gian mà mẹ tôi phải chạy các bài kiểm tra tích hợp trên phần mềm giao dịch cơ sở dữ liệu.

Tôi đã viết lại engine render của mình và tích hợp huấn luyện viên của tôi (mở rộng pufferlib chỉ dành cho huấn luyện trên GPU, vì vậy toàn bộ vòng lặp của tôi chạy natively trên GPU) và phần mềm trực quan hóa thí nghiệm / triển khai của tôi và phần mềm tạo thế giới của tôi ba lần rồi. Một cách riêng biệt.

Tốc độ đơn giản của vòng lặp của tôi khiến một đống công việc mà trước đây không đáng để thử trở nên đáng làm hôm nay. Tôi sẽ làm rất nhiều điều ngu ngốc chưa từng làm trước đây Tôi đã được nói rằng pixel là một ý tưởng tồi vì nó chậm, nhưng bất kỳ phần mềm nào cũng có thể được làm nhanh. Thực sự không khó đến vậy.

Tôi không nghĩ các bạn hiểu. Tôi đã đào tạo một chính sách chỉ sử dụng ĐIỂM PIXEL (!) CÓ THỂ QUẢN LÝ VẬT LÝ với 4 kênh điều khiển mà THỰC SỰ NHỚ những phòng mà nó đã ghé thăm và TRÁNH VA CHẠM ở 20hz mà KHÔNG CÓ TRẠNG THÁI. 900k tham số

Bạn có hiểu không? Tôi sẽ thắng. Không phải một chút. Không phải bằng cách làm những gì mọi người khác đang làm. Mà bằng cách làm những gì không ai khác dám làm. Chỉ làm điều mà rõ ràng, dường như chỉ có tôi thấy Tôi sẽ thắng

@ChrisRemboldt (có!)

20,6K

Hàng đầu

Thứ hạng

Yêu thích