كيف يفكر GPT-5 ، مع نائب الرئيس @OpenAI للأبحاث @MillionInt
00:00 - مقدمة
01:01 - ماذا يعني المنطق في الواقع في الذكاء الاصطناعي
02:32 - سلسلة الفكر: نماذج التفكير بالكلمات
05:25 - كيف تقرر العارضات مدة التفكير
07:24 - التطور من o1 إلى o3 إلى GPT-5
11:00 - الطريق إلى OpenAI: نشأت في بولندا ، والتسرب من المدرسة ، والتجارة
20:32 - العمل على الروبوتات وحل مكعب روبيك
23:02 - يوم في الحياة: التحدث إلى الباحثين
24:06 - كيف يتم تحديد أولويات البحث
26:53 - ثقافة الشفافية في OpenAI
29:32 - موازنة البحث مع الشحن السريع
31:52 - استخدام أدوات OpenAI الخاصة يوميا
32:43 - ما قبل التدريب بالإضافة إلى RL: مكدس الذكاء الذكاء الاصطناعي الحديث
35:10 -- التعلم المعزز 101: تدريب
40:17 -- تطور التعلم المعزز العميق
42:09 - عندما بدا GPT-4 مخيبا للآمال في البداية
45:39 - كيف جعل RLHF GPT-4 مفيدا بالفعل
48:02 - التعلم غير الخاضع للإشراف مقابل التعلم الخاضع للإشراف
49:59 - GRPO وكيف سرعت DeepSeek البحث الأمريكي
53:05 - ما يلزم لتوسيع نطاق التعلم المعزز
55:36 -- الذكاء الاصطناعي الوكيل والتفكير طويل الأفق
59:19 - المحاذاة كمشكلة RL
1:01:11 - الفوز بالنهائيات العالمية للاتحاد الدولي للدوري الدولي للدقات دون تدريب محدد
1:05:53 - تطبيق RL Beyond Math and Coding
1:09:15 - الطريق من هنا إلى AGI
1:12:23 - Pure RL مقابل نماذج اللغة