
DeepSeek V4 Pro: scheda tecnica, benchmark e casi d'uso
Modello MoE open-weight con 1,6T di parametri, contesto da 1 milione di token e forte orientamento al coding e agli agenti.
Cos'è
DeepSeek V4 Pro è il modello di punta della famiglia V4 annunciata da DeepSeek il 24 aprile 2026. Si tratta di un grande modello di linguaggio (LLM) a pesi aperti, distribuito con licenza MIT sia per il codice che per i pesi, disponibile su Hugging Face. È un modello a Mixture of Experts (MoE): 1,6 trilioni di parametri totali, di cui 49 miliardi attivi per ogni token processato. È progettato per ragionamento complesso, coding di alto livello e workflow agentici su contesti molto lunghi.
La famiglia V4 è stata rilasciata in versione preview con due varianti: V4-Pro e la più leggera V4-Flash. Entrambe condividono il contesto da un milione di token, ma V4-Pro attiva quasi quattro volte più parametri per token ed è la versione che registra i punteggi più alti sui benchmark tecnici. Il modello è accessibile tramite API ufficiale (deepseek-v4-pro) e può essere eseguito in locale su hardware adeguato. Supporta tre livelli di sforzo di ragionamento — non-thinking, thinking high e thinking max — selezionabili per singola richiesta tramite il parametro reasoning_effort. La modalità thinking max è talvolta indicata come DeepSeek-V4-Pro-Max ed è quella su cui DeepSeek riporta i risultati migliori.
A cosa serve / dove eccelle
V4 Pro si colloca come modello "frontier-adjacent" per sviluppatori, ricercatori e team tecnici che devono affrontare compiti complessi senza pagare i prezzi dei modelli chiusi di prima fascia. La scheda tecnica pubblicata su Hugging Face e le prime valutazioni indipendenti concordano su tre aree di eccellenza principali.
La prima è il coding e l'ingegneria del software. Secondo la documentazione ufficiale, V4-Pro-Max ottiene l'80,6% su SWE-bench Verified, punteggio confermato anche da tracker indipendenti come llm-stats. LiveCodeBench è riportato al 93,5% e il rating Codeforces al 3.206, entrambi valori di riferimento per modelli open-weight.
La seconda area è il ragionamento matematico-scientifico: GPQA Diamond 90,1%, MMLU-Pro 87,5% e HMMT 2026 95,2% secondo i dati ufficiali. La terza è la gestione di contesti lunghi, con un milione di token in input e output fino a 384.000 token, utile per elaborare codebase complete, documenti estesi o sessioni agentiche prolungate.
Rimane invece più indietro, sempre secondo i benchmark pubblicati da DeepSeek, su conoscenza generale di ampia portata: HLE 37,7% e SimpleQA-Verified 57,9%, dietro a Gemini 3.1 Pro e Claude Opus 4.6 su queste specifiche metriche.
Caratteristiche e specifiche
- Architettura: MoE con Hybrid Attention Architecture (Compressed Sparse Attention + Heavily Compressed Attention), Manifold-Constrained Hyper-Connections (mHC) e ottimizzatore Muon.
- Parametri: 1,6 trilioni totali, 49 miliardi attivi per token.
- Contesto: 1.000.000 token in input; output massimo 384.000 token.