Cos'è
MiMo 2.5 Pro (identificativo API: mimo-v2.5-pro) è un large language model sviluppato da Xiaomi e rilasciato ad aprile 2026. Rappresenta il modello di punta della famiglia MiMo ed è progettato per compiti che richiedono ragionamento prolungato, coding avanzato e capacità agentiche. Contrariamente al modello base MiMo-V2.5, che è nativamente omni-modale (testo, immagini, audio, video), la variante Pro è ottimizzata per l'elaborazione testuale e il codice, con un focus specifico su flussi di lavoro autonomi a più passaggi.
Xiaomi ha reso MiMo 2.5 Pro disponibile con pesi aperti su Hugging Face sotto una licenza permissiva. Accanto alla versione estesa a 1 milione di token esiste anche una versione Base con contesto da 256.000 token. L'architettura si basa su una Mixture-of-Experts (MoE) con 1,02 trilioni di parametri totali e 42 miliardi attivi per token. L'attenzione è ibrida: Sliding Window Attention e Global Attention sono intervallate in rapporto 6:1 con una finestra da 128 token, una scelta che riduce la memoria della KV cache di circa sette volte su contesti lunghi preservando le prestazioni. Un modulo di Multi-Token Prediction (MTP) permette di generare più token in parallelo, aumentando il throughput in fase di inferenza.
Il pre-training è avvenuto su 27 trilioni di token con precisione FP8 a lunghezza di sequenza nativa di 32.000 token, poi estesa fino a 1 milione. Il post-training segue un paradigma a tre stadi: Supervised Fine-Tuning su coppie dati curate, Domain-Specialized Training con modelli insegnante ottimizzati per matematica, sicurezza, uso di strumenti e altri domini, e infine (MOPD), in cui il modello studente apprende dai propri guidato a livello di token da ogni insegnante specializzato.
