Hier ist der Ritual Research Digest dieser Woche, ein Newsletter, der die neuesten Entwicklungen in der Welt der LLMs und der Schnittstelle von Crypto x AI abdeckt. Mit Hunderten von wöchentlich veröffentlichten Arbeiten ist es unmöglich, auf dem neuesten Stand zu bleiben. Wir lesen für Sie, damit Sie es nicht müssen.
Nicht alle Bits sind gleich: Maßstabsabhängige Strategien zur Speicheroptimierung für Denkmodelle Die Autoren untersuchen die Prinzipien der Speicherkompression für Denkmodelle. Sie berücksichtigen Modellgröße, Präzision, Generierungsdauer und die Kompression des KV-Caches.
Sie fragen: Unter einem festen Speicherbudget, wie ist das Gleichgewicht der Faktoren, um die Genauigkeit bei Denkaufgaben zu maximieren? Über 1700 Experimente mit der Qwen3-Familie auf AIME und GPQA-Diamond. Sie stellen fest, dass es keine universelle Strategie gibt, aber sie haben größen-spezifische Empfehlungen.
Die Kunst der Skalierung von Reinforcement Learning-Computing für LLMs Diese Arbeit untersucht die Wissenschaft der RL-Skalierung und entwickelt ScaleRL, ein Rezept, das sich vorhersehbar mit der Rechenleistung skalieren lässt. Das Design basiert auf einer empirischen Studie zur RL-Skalierung über 400.000 GPU-Stunden.
Sie finden drei Schlüsselprinzipien: • Die Leistungsgrenzen von RL sind nicht universell • Bittere Lektion gilt auch für RL • Häufige Interventionen, die als Verbesserung der Spitzenleistung gedacht sind, passen hauptsächlich die Recheneffizienz an, ohne die Leistungsgrenze erheblich zu verändern.
LLMs können "Gehirnverfall" bekommen! Dieses Papier untersucht, ob LLMs Gehirnverfall bekommen können, d.h. ob sie, wenn sie mit wertlosem Webtext trainiert werden, einen dauerhaften kognitiven Rückgang aufweisen? Sie experimentieren, indem sie Datensätze aus sozialen Medien (Twitter/X) über die beiden Junk-Metriken erstellen.
Der vergleichende Benchmarking zwischen sauberen und Junk-Datensätzen zeigt, dass die Junk-Intervention mit kognitiven Rückgängen im Denken, im Langzeitkontext und in ethischen Normen verbunden ist. Dunkle Persönlichkeiten von LLMs treten mit der M1-Junk-Intervention auf, was erhebliche Sicherheitsbedenken aufwirft.
Werfen Sie Ihr vortrainiertes Modell nicht weg Alignment/RL ist ein integraler Bestandteil des LLM-Trainings, hat jedoch mehrere Nachteile, in denen vortrainierte Basismodelle hervorragend sind. Dieses Papier untersucht, wie man die Vorteile beider Welten nutzen und anpassungsfähige KI-Systeme entwickeln kann.
Sie schlagen die Switch Generation vor, bei der mehrere Modell-Checkpoints dynamisch für die Generierung ausgewählt werden. Experimente mit 8 Kollaborations-Baselines und 18 Datensätzen zeigen, dass Ansätze zur Modellkollaboration alle einzelnen Modelle in 16 von 18 Datensätzen übertreffen.
Wie Reinforcement Learning nach der Vorhersage des nächsten Tokens das Lernen erleichtert Die Arbeit untersucht, wie autoregressive Modelle bei herausfordernden Vorhersageaufgaben erfolgreich sind, indem sie diesem Trainingsrezept folgen (Vorhersage des nächsten Tokens gefolgt von Reinforcement Learning).
Für Experimente nehmen sie an, dass die Daten für das Pre-Training seltene Demonstrationen für eine interessante Aufgabe enthalten. Basierend darauf erklären sie: - Schwierigkeiten bei der Verallgemeinerung während des Pre-Trainings - Wie RL zu einer schnellen Verbesserung führt - Was zu längeren Antworten führt?
Folge uns @ritualdigest für mehr über alles, was mit Krypto x AI-Forschung zu tun hat, und @ritualnet, um mehr darüber zu erfahren, was Ritual aufbaut.
466