Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analiza independentă a modelelor AI și a furnizorilor de găzduire - alegeți cel mai bun model și furnizor API pentru cazul dvs.
DeepSeek lansează V3.1, unificând V3 și R1 într-un model de raționament hibrid cu o creștere incrementală a inteligenței
Creșterea incrementală a inteligenței: Rezultatele inițiale ale benchmarking-ului pentru DeepSeek V3.1 arată un indice de inteligență de analiză artificială de 60 în modul de raționament, în creștere de la scorul R1 de 59. În modul non-raționament, V3.1 obține un scor de 49, o creștere mai mare față de scorul anterior V3 0324 de 44. Acest lucru lasă V3.1 (raționament) în spatele celui mai recent Qwen3 235B 2507 (raționament) al Alibaba - DeepSeek nu a preluat conducerea.
Raționament hibrid: @deepseek_ai trecut pentru prima dată la un model de raționament hibrid - acceptând atât modurile de raționament, cât și cele de non-raționament. Trecerea DeepSeek la un model de raționament hibrid unificat imită abordarea adoptată de OpenAI, Anthropic și Google. Este interesant de remarcat, totuși, că Alibaba a abandonat recent abordarea hibridă pe care o preferau pentru Qwen3 cu lansările lor separate ale modelelor Qwen3 2507 de raționament și instruire.
Apelarea funcției / utilizarea instrumentului: În timp ce DeepSeek pretinde că a îmbunătățit apelarea funcției pentru model, DeepSeek V3.1 nu acceptă apelarea funcției atunci când este în modul de raționament. Acest lucru este probabil să limiteze substanțial capacitatea sa de a susține fluxurile de lucru agentice cu cerințe de informații, inclusiv în agenții de codificare.
Utilizarea token-urilor: DeepSeek V3.1 are un scor incremental mai mare în modul de raționament decât DeepSeek R1 și folosește puțin mai puține token-uri în evaluările pe care le folosim pentru Artificial Analysis Intelligence Index. În modul non-raționament, folosește puțin mai multe jetoane decât V3 0324 - dar totuși de câteva ori mai puține decât în propriul său mod de raționament.
API: API-ul primar al DeepSeek servește acum noul model DeepSeek V3.1 atât pe chat, cât și pe endpoint-urile de raționament - pur și simplu schimbând dacă tokenul de gândire finală </think> este furnizat modelului în șablonul de chat pentru a controla dacă modelul va raționa.
Arhitectură: DeepSeek V3.1 este identic din punct de vedere arhitectural cu modelele anterioare V3 și R1, cu 671 miliarde de parametri totali și 37 miliarde de parametri activi.
Implicații: Vă sfătuim să fiți precauți atunci când faceți presupuneri despre ceea ce implică această versiune despre progresul DeepSeek către un model viitor denumit în zvonuri V4 sau R2. Observăm că DeepSeek a lansat anterior modelul final construit pe arhitectura lor V2 pe 10 decembrie 2024, cu doar două săptămâni înainte de lansarea V3.


71,17K
Anunțarea Artificial Analysis Long Context Reasoning (AA-LCR), un nou benchmark pentru evaluarea performanței contextului lung prin testarea capacităților de raționament pe mai multe documente lungi (~100k token-uri)
Obiectivul AA-LCR este de a replica sarcinile reale de cunoștințe și raționament, testarea capabilităților critice pentru aplicațiile AI moderne, care acoperă analiza documentelor, înțelegerea bazei de cod și fluxurile de lucru complexe în mai mulți pași.
AA-LCR este format din 100 de întrebări bazate pe text care necesită raționament pe mai multe documente din lumea reală care reprezintă ~100k de jetoane de intrare. Întrebările sunt concepute astfel încât răspunsurile să nu poată fi găsite direct, ci trebuie să fie argumentate din mai multe surse de informații, testarea umană verificând că fiecare întrebare necesită o inferență autentică, mai degrabă decât o recuperare.
Principalele concluzii:
➤ Modelele de top de astăzi ating o precizie de ~70%: primele trei locuri merg la OpenAI o3 (69%), xAI Grok 4 (68%) și Qwen3 235B 2507 Thinking (67%)
➤ 👀 De asemenea, avem deja rezultate gpt-oss! 120B are performanțe apropiate de o4-mini (ridicat), în conformitate cu afirmațiile OpenAI privind performanța modelului. Vom continua în curând cu un indice de inteligență pentru modele.
➤ 100 de întrebări bazate pe text care acoperă 7 categorii de documente (rapoarte de companie, rapoarte industriale, consultări guvernamentale, mediul academic, juridic, materiale de marketing și rapoarte de sondaj)
➤ ~100k jetoane de intrare pe întrebare, necesitând modelelor să accepte o fereastră de context de minim 128K pentru a obține un scor la acest benchmark
➤ ~ 3 milioane de jetoane de intrare unice în total care se întind pe ~230 de documente pentru a rula benchmark-ul (jetoanele de ieșire variază de obicei în funcție de model)
➤ Link către setul de date de pe 🤗 @HuggingFace este mai jos
Adăugăm AA-LCR la Indexul de inteligență de analiză artificială și ducem numărul versiunii la v2.2. Artificial Analysis Intelligence Index v2.2 include acum: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode și AA-LCR.
Toate numerele sunt actualizate pe site acum. Aflați ce modele Indicele de inteligență de analiză artificială v2.2 👇

28,9K
Cerebras și-a demonstrat capacitatea de a găzdui MoE mari la viteze foarte mari săptămâna aceasta, lansând punctele finale Qwen3 235B 2507 și Qwen3 Coder 480B la >1.500 de jetoane/s de ieșire
➤ @CerebrasSystems oferă acum puncte finale atât pentru Qwen3, 235B, 2507 Raționament, cât și pentru Non-raționament. Ambele modele au parametri totali de 235B cu 22B activi.
➤ Qwen 3 235B 2507 Raționamentul oferă o inteligență comparabilă cu o4-mini (ridicat) și DeepSeek R1 0528. Varianta non-rațională oferă o inteligență comparabilă cu Kimi K2 și cu mult peste GPT-4.1 și Llama 4 Maverick.
➤ Qwen3 Coder 480B are 480B parametri totali cu 35B activi. Acest model este deosebit de puternic pentru codificarea agentică și poate fi utilizat într-o varietate de instrumente de agent de codare, inclusiv Qwen3-Coder CLI.
Lansările Cerebras reprezintă prima dată când acest nivel de inteligență a fost accesibil la aceste viteze de ieșire și au potențialul de a debloca noi cazuri de utilizare - cum ar fi utilizarea unui model de raționament pentru fiecare pas al unui agent fără a fi nevoie să aștepte minute.

25,35K
Limită superioară
Clasament
Favorite