MiMo 2.5 Pro: scheda del modello AI agentico di Xiaomi

Cos'è

MiMo 2.5 Pro (identificativo API: mimo-v2.5-pro) è un large language model sviluppato da Xiaomi e rilasciato ad aprile 2026. Rappresenta il modello di punta della famiglia MiMo ed è progettato per compiti che richiedono ragionamento prolungato, coding avanzato e capacità agentiche. Contrariamente al modello base MiMo-V2.5, che è nativamente omni-modale (testo, immagini, audio, video), la variante Pro è ottimizzata per l'elaborazione testuale e il codice, con un focus specifico su flussi di lavoro autonomi a più passaggi.

Xiaomi ha reso MiMo 2.5 Pro disponibile con pesi aperti su Hugging Face sotto una licenza permissiva. Accanto alla versione estesa a 1 milione di token esiste anche una versione Base con contesto da 256.000 token. L'architettura si basa su una Mixture-of-Experts (MoE) con 1,02 trilioni di parametri totali e 42 miliardi attivi per token. L'attenzione è ibrida: Sliding Window Attention e Global Attention sono intervallate in rapporto 6:1 con una finestra da 128 token, una scelta che riduce la memoria della KV cache di circa sette volte su contesti lunghi preservando le prestazioni. Un modulo di Multi-Token Prediction (MTP) permette di generare più token in parallelo, aumentando il throughput in fase di inferenza.

Il pre-training è avvenuto su 27 trilioni di token con precisione FP8 a lunghezza di sequenza nativa di 32.000 token, poi estesa fino a 1 milione. Il post-training segue un paradigma a tre stadi: Supervised Fine-Tuning su coppie dati curate, Domain-Specialized Training con modelli insegnante ottimizzati per matematica, sicurezza, uso di strumenti e altri domini, e infine (MOPD), in cui il modello studente apprende dai propri guidato a livello di token da ogni insegnante specializzato.

Caratteristica	Valore
Parametri totali	1,02T
Parametri attivi	42B
Contesto	1.048.576 token (versione Pro); 256K nella versione Base
Architettura	MoE con attenzione ibrida (Sliding Window + Global 6:1, finestra 128 token)
Precisione	FP8 (E4M3) mixed
Token di pre-training	27T
Post-training	SFT, Domain-Specialized RL, Multi-Teacher On-Policy Distillation
Output massimo	131.072 token (secondo aggregatori di modelli)
Prezzo indicativo API	$1,00 / 1M token in input, $3,00 / 1M token in output
Velocità dichiarata	60-80 token/s

MiMo 2.5 Pro: scheda del modello AI agentico di Xiaomi

Cos'è

🤔 Hai domande su questo argomento?

Continua a leggere

Qwen3-Embedding: embedding testuali multilingui open source di Alibaba Cloud

SmolLM3: scheda del modello di linguaggio compatto di Hugging Face

A cosa serve / dove eccelle

Caratteristiche e specifiche

Punti di forza

Quando ha senso (e quando no)

Casi d'uso concreti

Alternative e contesto

In sintesi

Risorse

Moondream: famiglia di Vision-Language Model open source efficienti

Kokoro TTS: modello open-weight di sintesi vocale da 82M parametri