Här är veckans Ritual Research Digest, ett nyhetsbrev som täcker det senaste i LLM-världen och skärningspunkten mellan Crypto x AI. Med hundratals artiklar som publiceras varje vecka är det omöjligt att hålla sig uppdaterad med det senaste. Vi gör avläsningen så att du inte behöver göra det.
Alla bitar är inte lika: Skalberoende minnesoptimeringsstrategier för resonemangsmodeller Författarna undersöker principerna för minneskomprimering för resonemangsmodeller. De tar hänsyn till modellstorlek, precision, genlängd och KV-cachekomprimering.
De frågar: Under en fast minnesbudget, vad är balansen mellan faktorerna för att maximera noggrannheten på resonemangsuppgifter? Över 1700 experiment på Qwen3-familjen på AIME och GPQA-Diamond. De finner att det inte finns någon universell strategi, men de har storleksspecifika rekommendationer.
Konsten att skala Reinforcement Learning Compute för LLM Det här arbetet utforskar vetenskapen om RL-skalning och utvecklar ScaleRL, ett recept som skalas förutsägbart med beräkning. Designen är grundad i en empirisk studie av RL-skalning över 400 000 GPU-timmar.
De kommer fram till tre huvudprinciper: • RL-prestandatak är inte universella • Bitter läxa gäller även för RL • Vanliga ingrepp som anses förbättra topprestanda justerar främst beräkningseffektiviteten, samtidigt som prestandataket inte ändras avsevärt.
LLM:er kan få "hjärnröta"! I den här uppsatsen studeras om LLM:er kan få hjärnröta, dvs. om de tränas på skräpwebbtext, har de en bestående kognitiv försämring hos LLM:er? De experimenterar genom att konstruera datamängder från sociala medier (Twitter/X) via de två skräpmåtten.
Jämförande benchmarking mellan rena och skräpdatauppsättningar visar att skräpinterventionen är förknippad med kognitiva försämringar i resonemang, lång kontext och etiska normer. Mörka personligheter av LLM:er dyker upp med M1-skräpingripande, vilket ger betydande säkerhetsproblem.
Kasta inte bort din förtränade modell Alignment/RL har blivit en integrerad del av LLM-utbildning men har flera nackdelar, som förtränade basmodeller utmärker sig på. I detta dokument undersöks hur man kan utnyttja fördelarna med båda världarna och utveckla anpassningsbara AI-system.
De föreslår Switch Generation, där flera modellkontrollpunkter väljs dynamiskt för generering. Experiment med 8 samarbetsbaslinjer och 18 datauppsättningar visar att modellsamarbetsmetoder överträffar alla enskilda modeller på 16 av 18 datauppsättningar.
Hur förstärkningsinlärning efter förutsägelse av nästa token underlättar inlärningen Artikeln studerar hur autoregressiva modeller lyckas med utmanande prediktionsuppgifter genom att följa detta träningsrecept (next-token prediction följt av reinforcement learning).
För experiment antar de att förträningsdata innehåller sällsynta demonstrationer för en uppgift av intresse. Baserat på detta förklarar de: - Generaliseringssvårigheter under förträning - Hur RL leder till en snabb förbättring - Vad leder till längre svar?
Följ oss @ritualdigest för mer information om allt som rör forskning om krypto x AI, och @ritualnet för att lära dig mer om vad Ritual bygger.
565