المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
إليك ملخص Ritual Research Digest لهذا الأسبوع ، وهي نشرة إخبارية تغطي أحدث ما في عالم LLMs وتقاطع Crypto x الذكاء الاصطناعي.
مع نشر مئات الصحف أسبوعيا ، من المستحيل البقاء على اطلاع دائم بالأحدث الصحف. نقوم بالقراءة حتى لا تضطر إلى ذلك.

ليست كل البتات متساوية: استراتيجيات تحسين الذاكرة المعتمدة على المقياس لنماذج التفكير
يبحث المؤلفون في مبادئ ضغط الذاكرة لنماذج التفكير. يأخذون في الاعتبار حجم النموذج والدقة وطول الجيل وضغط ذاكرة التخزين المؤقت KV.

يسألون: في ظل ميزانية ذاكرة ثابتة ، ما هو توازن العوامل لتحقيق أقصى قدر من الدقة في مهام التفكير؟
أكثر من 1700 تجربة على عائلة Qwen3 على AIME و GPQA-Diamond. وجدوا أنه لا توجد استراتيجية عالمية ، لكن لديهم توصيات خاصة بالحجم.

فن تحجيم حوسبة التعلم المعزز لماجستير العلوم
يستكشف هذا العمل علم تحجيم RL ويطور ScaleRL ، وهي وصفة تتوسع بشكل متوقع مع الحوسبة. يرتكز التصميم على دراسة تجريبية لتوسيع نطاق RL لأكثر من 400,000 ساعة GPU.

وجدوا ثلاثة مبادئ رئيسية:
• سقوف RL Performance ليست عالمية
• ينطبق الدرس المر على RL أيضا
• التدخلات الشائعة التي يعتقد أنها تعمل على تحسين ذروة الأداء تقوم بشكل أساسي بضبط كفاءة الحوسبة ، مع عدم تغيير سقف الأداء بشكل كبير.

يمكن أن تحصل LLMs على "تعفن الدماغ"!
تدرس هذه الورقة ما إذا كان بإمكان LLMs الحصول على تعفن الدماغ ، أي إذا تم تدريبه على نص الويب غير الهام ، فهل لديه انخفاض معرفي دائم في LLMs؟
يقومون بالتجربة من خلال إنشاء مجموعات بيانات من وسائل التواصل الاجتماعي (Twitter / X) عبر مقياسين غير مرغوب فيهما.

تظهر المقارنة بين مجموعات البيانات النظيفة وغير المرغوب فيها أن التدخل غير المرغوب فيه يرتبط بالانخفاض المعرفي في التفكير ، والسياق الطويل ، والمعايير الأخلاقية.
تظهر الشخصيات المظلمة ل LLMs مع تدخل M1 غير المرغوب فيه ، مما يلقي بمخاوف كبيرة على السلامة.


لا تتخلص من نموذجك المدرب مسبقا
أصبحت المحاذاة / RL جزءا لا يتجزأ من تدريب LLM ولكن لها العديد من العيوب ، والتي تتفوق فيها النماذج الأساسية المدربة مسبقا. تدرس هذه الورقة كيفية تسخير فوائد كلا العالمين وتطوير أنظمة الذكاء الاصطناعي القابلة للتكيف.

يقترحون إنشاء التبديل ، حيث يتم تحديد نقاط تفتيش نموذجية متعددة ديناميكيا للتوليد.
توضح التجارب التي أجريت على 8 خطوط أساس للتعاون و18 مجموعة بيانات أن مناهج التعاون النموذجي تتفوق على جميع النماذج الفردية في 16 من أصل 18 مجموعة بيانات.


كيف يسهل التعلم المعزز بعد التنبؤ بالرمز المميز التالي التعلم
تدرس الورقة كيف تنجح نماذج الانحدار الذاتي في تحدي مهام التنبؤ باتباع وصفة التدريب هذه (التنبؤ بالرمز المميز التالي متبوعا بالتعلم المعزز).

بالنسبة للتجارب ، يفترضون أن بيانات ما قبل التدريب تحتوي على عروض توضيحية نادرة لمهمة ذات أهمية.
بناء على ذلك ، يشرحون:
- صعوبة التعميم أثناء التدريب المسبق
- كيف تؤدي RL إلى تحسن سريع
- ما الذي يؤدي إلى استجابات أطول؟

تابعنا @ritualdigest لمعرفة المزيد حول كل ما يتعلق بالبحث عن العملات المشفرة x الذكاء الاصطناعي ، و
@ritualnet لمعرفة المزيد حول ما تبنيه Ritual.
465
الأفضل
المُتصدِّرة
التطبيقات المفضلة