المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
@EurekaLabsAI المباني. سابقا مدير الذكاء الاصطناعي @ Tesla ، الفريق المؤسس @ OpenAI ، CS231n / PhD @ ستانفورد. أحب تدريب الشبكات العصبية العميقة الكبيرة.
الليلة الماضية قمت بتعليم nanochat d32 كيفية عد "r" في الفراولة (أو أشكال مماثلة). اعتقدت أن هذا سيكون مثالا جيدا / ممتعا لكيفية إضافة إمكانات إلى nanochat وكتبت دليلا كاملا هنا:
يتم ذلك من خلال مهمة تركيبية جديدة "SpellingBee" تقوم بإنشاء أمثلة لمستخدم يسأل عن هذا النوع من المشكلات ، وحلا مثاليا من مساعد. ثم نقوم بضبط منتصف / SFT على هذه لمنح LLM القدرة ، أو تدريب إضافي مع RL لجعلها أكثر قوة. هناك العديد من التفاصيل التي يجب الحصول عليها بشكل صحيح خاصة في أحجام النماذج الأصغر وخطوات الدليل من خلالها. كنظرة عامة موجزة:
- يجب عليك ضمان التنوع في مطالبات / استفسارات المستخدم
- بالنسبة للنماذج الصغيرة مثل nanochat على وجه الخصوص ، عليك أن تكون حذرا حقا مع تفاصيل الترميز لتسهيل المهمة على LLM. على وجه الخصوص ، عليك توخي الحذر مع المسافات البيضاء ، ومن ثم عليك نشر حساب التفكير عبر العديد من الرموز المميزة للحل الجزئي: أولا نقوم بتوحيد الكلمة في علامات اقتباس ، ثم نوضجها (لتفكيك الرموز المميزة) ، ثم نكرر ونحتفظ بعداد صريح ، إلخ.
- أنا أشجع النموذج على حل النموذج بطريقتين منفصلتين: طريقة يدوية (الحساب الذهني في رأسه) وأيضا عبر استخدام أداة مترجم Python الذي يمكن ل nanochat الوصول إليه. هذا "دخان ومرايا" قليلا لأن كل جهاز صراف آلي للحل "نظيف" ، بدون أخطاء. يمكن للمرء إما ضبط المهمة لمحاكاة الأخطاء وإظهار عمليات الاسترداد بالمثال ، أو تشغيل RL. على الأرجح ، يعمل مزيج من الاثنين بشكل أفضل ، حيث يعمل الأول كسابق ل RL ويمنحه أشياء للعمل معها.
إذا كان nanochat نموذجا أكبر بكثير ، فأنت تتوقع أو تأمل في أن تكون هذه القدرة "تنبثق" بسهولة أكبر في مرحلة ما. ولكن نظرا لأن nanochat d32 "الدماغ" هو حجم ~ نحلة العسل ، إذا أردنا أن يحسب r في الفراولة ، فعلينا القيام بذلك عن طريق الإفراط في تمثيله في البيانات ، لتشجيع النموذج على تعلمه في وقت مبكر. لكنها تعمل! :)

347.09K
أنا أحب ورقة DeepSeek-OCR الجديدة. إنه نموذج OCR جيد (ربما أسوأ قليلا من النقاط) ، ونعم جمع البيانات وما إلى ذلك ، ولكن على أي حال لا يهم.
الجزء الأكثر إثارة للاهتمام بالنسبة لي (خاصة كرؤية حاسوبية في القلب يتنكر مؤقتا في زي شخص لغة طبيعية) هو ما إذا كانت وحدات البكسل هي مدخلات أفضل ل LLMs من النص. ما إذا كانت الرموز المميزة النصية مهدرة وفظيعة ، عند الإدخال.
ربما يكون من المنطقي أن تكون جميع مدخلات LLMs صورا فقط. حتى إذا كان لديك إدخال نص خالص ، فربما تفضل تقديمه ثم إدخاله في:
- ضغط المزيد من المعلومات (انظر الورقة) = > نوافذ سياق أقصر ، وكفاءة أكبر
- دفق معلومات أكثر عمومية بشكل ملحوظ = > ليس فقط نصا ، ولكن على سبيل المثال نص غامق ونص ملون وصور عشوائية.
- يمكن الآن معالجة المدخلات بانتباه ثنائي الاتجاه بسهولة وكإعداد افتراضي ، وليس انتباه ذاتي الانحدار - أقوى بكثير.
- حذف الرمز المميز (عند الإدخال) !! لقد صرخت بالفعل حول مدى عدم إعجابي بالرمز المميز. الرموز القبيحة ومنفصلة وليست مرحلة شاملة. إنه "يستورد" كل قبح Unicode ، وترميزات البايت ، ويرث الكثير من الأمتعة التاريخية ، ومخاطر الأمان / كسر الحماية (مثل بايت الاستمرار). إنه يجعل شخصيتين تبدوان متطابقين مع العين يبدوان كرمزين مختلفين تماما داخليا في الشبكة. يبدو الرمز التعبيري المبتسم وكأنه رمز غريب ، وليس ... وجه مبتسم حقيقي ، بكسل وكل شيء ، وكل تعلم النقل الذي يجلبه. يجب أن يذهب الرمز المميز.
التعرف الضوئي على الحروف هو مجرد واحد من العديد من مهام الرؤية المفيدة > النص. ويمكن جعل مهام النص > النصية مهام الرؤية > النصية. ليس العكس.
الكثير من رسائل المستخدم عبارة عن صور ، لكن وحدة فك التشفير (استجابة المساعد) تظل نصية. من غير الواضح بكثير كيفية إخراج وحدات البكسل بشكل واقعي ... أو إذا كنت ترغب في ذلك.
الآن يجب أن أحارب أيضا الرغبة في البحث عن نسخة إدخال الصور فقط من nanochat ...

vLLM20 أكتوبر، 19:31
🚀 DeepSeek-OCR - الحدود الجديدة للتعرف الضوئي على الحروف من @deepseek_ai ، واستكشاف ضغط السياق البصري ل LLMs ، تعمل بسرعة فائقة على vLLM ⚡ (~ 2500 رمز / ثانية على A100-40G) - مدعوم من vllm == 0.8.5 لدعم نموذج اليوم.
🧠 يضغط السياقات المرئية حتى 20× مع الحفاظ على دقة التعرف الضوئي على الحروف بنسبة 97٪ عند <10×.
📄 يتفوق على GOT-OCR2.0 و MinerU2.0 على OmniDocBench باستخدام عدد أقل من رموز الرؤية.
🤝 يعمل فريق vLLM مع DeepSeek لتقديم دعم DeepSeek-OCR الرسمي إلى إصدار vLLM التالي - مما يجعل الاستدلال متعدد الوسائط أسرع وأسهل في التوسع.
🔗
#vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning



2.91M
منشور قصير لطيف يوضح مدى بساطة انتشار النص (المنفصل).
الانتشار (أي تقليل الكثافة المتوازي والمتكرر ، الأعلى) هو النموذج التوليدي المنتشر في الصورة / الفيديو ، لكن الانحدار الذاتي (أي الانتقال من اليسار إلى اليمين من الأسفل) هو النموذج السائد في النص. بالنسبة للصوت ، رأيت القليل من الاثنين.
تبدو الكثير من أوراق الانتشار كثيفة بعض الشيء ولكن إذا قمت بتجريد الشكليات الرياضية ، فسينتهي بك الأمر بخوارزميات أساسية بسيطة ، على سبيل المثال شيء أقرب بكثير إلى مطابقة التدفق بشكل مستمر ، أو شيء من هذا القبيل بشكل منفصل. إنه محول الفانيليا الخاص بك ولكن مع اهتمام ثنائي الاتجاه ، حيث تقوم بإعادة أخذ عينات من جميع الرموز المميزة وإعادة إخفاؤها بشكل متكرر في "لوحة الرموز المميزة" بناء على جدول الضوضاء حتى تحصل على العينة النهائية في الخطوة الأخيرة. (الانتباه ثنائي الاتجاه أقوى بكثير ، وستحصل على نماذج لغوية ذاتية الانحدار أقوى بكثير إذا تدربت عليها ، لسوء الحظ ، فإنه يجعل التدريب أكثر تكلفة لأنه الآن لا يمكنك التوازي عبر التسلسل الخافت).
لذا فإن الانحدار التلقائي يقوم بعمل ".append(token)" على لوحة الرموز المميزة مع الحضور للخلف فقط ، بينما يقوم الانتشار بتحديث لوحة الرمز المميز بأكملها باستخدام ".setitem(idx، token)" أثناء الحضور ثنائي الاتجاه. يبدو الفكر البشري بسذاجة أشبه بالانحدار الذاتي ، لكن من الصعب القول أنه لا يوجد المزيد من المكونات الشبيهة بالانتشار في بعض المساحات الفكرية الكامنة. من الممكن تماما أنه يمكنك الاستيفاء بينهما بشكل أكبر ، أو تعميمهما بشكل أكبر. وهو أحد مكونات مكدس LLM الذي لا يزال يبدو قابلا للاستبدال بعض الشيء.
الآن يجب أن أقاوم الرغبة في البحث الجانبي في تدريب nanochat مع الانتشار.

Nathan Barry21 أكتوبر، 00:52
BERT هو مجرد خطوة نشر نص واحد! (1 / ن)
عندما قرأت لأول مرة عن نماذج نشر اللغة ، فوجئت عندما وجدت أن هدفهم التدريبي كان مجرد تعميم لنمذجة اللغة المقنعة (MLM) ، وهو أمر كنا نقوم به منذ BERT من عام 2018.
كانت أول فكرة لدي ، "هل يمكننا ضبط نموذج يشبه BERT للقيام بإنشاء نص؟"
625.03K
الأفضل
المُتصدِّرة
التطبيقات المفضلة

