إنه لأمر مجنون بصراحة أن لدي أسرع وحدات البكسل لإطار التدريب على التعلم المعزز للسياسة في العالم بأسره ، في 100 ألف مثلث و 16 ألف شبكة فريدة و 16 ألف عالم فريد. كل ذلك على 4090 واحد. 10 دقائق في المهام السهلة
هناك بعض الأشياء الرائعة حول هذا الموضوع. استفسارات سريعة جدا عن سمات العالم بالنسبة لمواضع الأشياء ، سمات مثل أقرب سطح. لا تنفجر الذاكرة ، ويمكن أن تصل إلى 100 ألف عالم فريد في الذاكرة إذا أردت ذلك ، عن طريق تجميع الأصول. الجيل الإجرائي المباشر
قم بتوصيل الأصول وتشغيلها للعالم. يمكنني إنشاء عوالم متداخلة إجرائية باستخدام manifoldcad إذا كنت أرغب في ذلك ، والاستمرار في توليد عوالم جديدة أثناء التدريب. الكثير من السياسات تكافح مع الحفظ ولكن ليس لي. يمكن أن تكون كل حلقة عالما جديدا إذا أردت أن تكون كذلك
مخططات عرض مخصصة لتسريع التدريب. يمكنني القيام بعرض foveated حتى أتمكن من تعلم RL مقلة عين فعلية ، والتي تنطلق لمعرفة مكان وضع العامل. وهو يتعلم بالفعل. 1 م ، 2 م خطوة في الثانية. باستخدام اثنين من وحدات معالجة الرسومات يمكنني إجراء 12 تجربة في ساعة واحدة
يمكنني الحصول على إدراك العمق مجانا بسبب محرك عالمي الخاص بي. يمكنني النمذجة والفيزياء التي أريدها عن طريق حقن وظيفة pytorch التي تجمع العمليات في كل عالم. * لأنني * أستطيع إجراء العديد من التجارب بهذه السرعات القصوى ، وهي قابلة للتكوين ، فأنا أتعلم الكثير
لقد قمت بتدريب نموذج لاستكشاف شقة مع ثلاثة استفسارات عمق فقط. هل كان الأمر سهلا؟ لا. استغرق الأمر الكثير من التجارب. ولكن لأنني أستطيع الركض 100 في اليوم ، فإنني أحرز 100 ضعف التقدم. لقد اكتشفت كيفية الاحتفاظ بها بشكل صحيح * لأن * تقدمي أسرع 100 مرة من تقدمك
لدي رمز تبحث فيه الشبكة في كل زاوية ولدي رمز يعرض سلوك السياسة ولدي رمز يقوم بتشغيل الإحصائيات عليها جميعا ويقوم بتحديث مخطط مباشر لأشاهده ولدي رمز يقوم بتشغيل تجارب متعددة على أجهزتي المتعددة
لقد كنت أعمل بشكل أساسي على هذا لمدة شهرين بشكل إجمالي ، مثقب بالأجهزة والعمل الثابت. كانت جولات التدريب الخاصة بي تستغرق 10 ساعات والآن تستغرق 10 دقائق. لا أعتقد أنك تفهم حقا ما يعنيه هذا. 10 دقائق
اعتادت والدتي كتابة c ++ لبرامج المعاملات المصرفية في التسعينيات وكانت أوقات تجميعها أطول. حلقة التدريب الخاصة بي بالكامل على RENDERED WORLDS التي تم إنشاؤها إجرائيا أسرع من المدة التي استغرقتها أمي لإجراء اختبارات التكامل على برامج معاملات قاعدة البيانات
لقد أعدت كتابة محرك العرض الخاص بي وتكامل المدرب الخاص بي (امتداد pufferlib الخاص بتدريب GPU فقط ، لذلك تعمل الحلقة بأكملها أصلا على وحدة معالجة الرسومات) وبرنامج التصور التجريبي / الطرح وبرنامج الجيل العالمي الخاص بي ثلاث مرات الآن. شكل فردي.
السرعة الهائلة البسيطة لحلقتي تجعل مجموعة من الأعمال التي لم تكن تستحق المحاولة تستحق القيام بها اليوم. سأفعل الكثير من الهراء الغبي الذي لم يسبق له مثيل قيل لي إن وحدات البكسل كانت فكرة سيئة لأنها كانت بطيئة ولكن يمكن إنشاء أي برنامج بسرعة. الأمر ليس بهذه الصعوبة.
لا أعتقد أنكم تفهمون يا رفاق. لقد قمت بتدريب سياسة لا تستخدم أي شيء سوى وحدات البكسل (!) يمكنه ذلك إدارة الفيزياء من خلال 4 قنوات تحكم تتذكر حرفيا الغرف التي زارتها بالفعل وتجنب الاصطدامات عند 20 هرتز بدون حالة. 900 ألف معلمة
هل تفهم؟ سأفوز. ليس قليلا. ليس من خلال فعل ما يفعله الآخرون. من خلال القيام بما لا يوجد لدى أي شخص آخر الكرات للقيام بها. مجرد القيام بالشيء الواضح ، على ما يبدو بالنسبة لي فقط سأفوز
@ChrisRemboldt (نعم!)
‏‎24.22‏K