Kimi K2.7-Code: modello open-weight per coding agentico
Il modello di coding specializzato di Moonshot AI, rilasciato a giugno 2026 con pesi aperti e contesto da 256.000 token.
20 giugno 2026·7 min di lettura
Kimi K2.7-CodeMoonshot AIcoding agenticomodello open-weightMixture of Expertsrefactoring automaticoModel Context Protocol
Cos'è
Kimi K2.7-Code è un modello linguistico specializzato nel codice, annunciato da Moonshot AI il 12 giugno 2026. A differenza dei modelli generalisti, è progettato per compiti di ingegneria del software a lungo orizzonte: leggere interi repository, modificare file, eseguire test, interagire con strumenti esterni e debuggare in autonomia attraverso molteplici step. È distribuito con pesi aperti sotto una licenza Modified MIT, il che consente di scaricarlo, ispezionarlo e ospitarlo su infrastruttura propria, a patto di rispettare le clausole specifiche riportate nel repository ufficiale.
L'architettura è una Mixture of Experts (MoE): 1 trilione di parametri totali, di cui solo 32 miliardi vengono attivati per ogni token processato. Il modello seleziona 8 esperti per token più uno condiviso, su un totale di 384 esperti distribuiti su 61 layer. L'attenzione usa MLA (Multi-head Latent Attention) e il feed-forward impiega SwiGLU, soluzioni comuni nei modelli di ultima generazione per gestire contesti lunghi con maggiore efficienza. Il contesto massimo arriva a 256.000 token, una quantità sufficiente a contenere codebase di medie dimensioni, documentazione, log di esecuzione e diff di pull request all'interno dello stesso prompt. Inoltre, il modello accetta input multimodali — immagini e video — grazie a un encoder visivo MoonViT da 400 milioni di parametri.
A cosa serve
K2.7-Code è pensato per il coding agentico, non per la semplice autocompletazione di snippet. Si tratta di un motore per agenti in grado di lavorare su intere basi di codice, seguendo un obiettivo attraverso molti passaggi. Le applicazioni più dirette includono:
Refactoring su larga scala: il modello può leggere più moduli, identificare duplicazioni, proporre ristrutturazioni coerenti e rieseguire i test finché non tornano verdi. È utile quando una libreria cambia API o quando si vuole ridurre il debito tecnico accumulato nel tempo.
Hai letto fino a qui
🤔 Hai domande su questo argomento?
Posso aiutarti a capire come applicarlo al tuo business. Scegli come vuoi parlarmi.
Code review: fornendo una diff, i log di build e la documentazione correlata, il modello può produrre un'analisi di rischio, segnalare regressioni probabili o suggerire test mancanti. Per le agenzie con molti progetti in parallelo, questo può velocizzare il processo di revisione prima della consegna al cliente.
Debugging multistep: a fronte di un test che fallisce o di un errore segnalato in produzione, l'agente può esplorare il codice, ipotizzare cause, verificare soluzioni e ripetere il ciclo fino a risoluzione.
Automazioni via MCP: grazie al supporto del Model Context Protocol, K2.7-Code può invocare strumenti esterni come runner di CI, sistemi di ticketing, motori di ricerca o terminali di shell, integrandoli in un unico ciclo di lavoro.
Per fondatori, PMI e agenzie italiane, il valore pratico sta nella possibilità di ridurre il tempo dedicato ai task meccanici di manutenzione del codice, migliorare la qualità delle revisioni o prototipare più velocemente funzionalità complesse senza dover necessariamente espandere il team.
Come funziona
K2.7-Code deriva da Kimi K2.6, ma è stato ulteriormente affinato su dati di codice e su task di ragionamento agentico. Una caratteristica distintiva è che la modalità di thinking è obbligatoria: non può essere disattivata, perché fa parte integrante del modo in cui il modello affronta problemi complessi. Moonshot dichiara circa il 30% di token di ragionamento in meno rispetto a K2.6, il che si traduce in meno "sovrappensiero" e, di conseguenza, in step più rapidi e costi cumulativi più contenuti nelle sessioni lunghe.
I parametri di campionamento sono fissati lato server: temperatura 1,0, top_p 0,95, n 1 e penalità a 0. Questo semplifica l'uso — non c'è da tarare nulla — ma riduce il controllo fine sul comportamento del modello. L'output massimo è di 32.768 token. Quando si usano chiamate a strumenti multi-turno, è fondamentale preservare il campo reasoning_content del modello nel contesto della conversazione, altrimenti i turni successivi possono generare errori.
Il modello è disponibile in tre modalità principali. La prima è l'API ufficiale di Moonshot AI, compatibile con il formato OpenAI, usando la stringa kimi-k2.7-code. La seconda è Kimi Code CLI, un agente terminale open source rilasciato pochi giorni prima del modello, pensato per sessioni interattive di sviluppo. La terza è lo self-hosting tramite motori come vLLM, SGLang o KTransformers, per chi possiede l'hardware adeguato. I pesi occupano circa 595 GB su disco, quindi è una soluzione da server, non adatta a un laptop comune.
Perché conta
L'uscita di K2.7-Code si inserisce in un momento di forte domanda di modelli di coding aperti di qualità frontier. Moonshot ha pubblicato sei benchmark interni che mostrano miglioramenti consistenti rispetto a K2.6: +21,8% su Kimi Code Bench v2, +11,0% su Program Bench, +31,5% su MLS Bench Lite, +9,3% su Kimi Claw 24/7 Bench, +9,5% su MCP Atlas e +11,4% su MCP Mark Verified. Benché siano numeri forniti dal produttore e vadano confermati con valutazioni indipendenti, indicano un salto netto nella qualità del codice generato e nella capacità di usare strumenti esterni.
Rispetto a modelli chiusi come Claude Opus 4.8, K2.7-Code offre due vantaggi evidenti: la disponibilità dei pesi e costi di inferenza più contenuti. Rispetto ad altri modelli aperti, come DeepSeek V4-Pro o Qwen3-Coder, si posiziona come alternativa diretta per chi cerca un modello orientato agli agenti di sviluppo. Per le aziende italiane, questo significa avere più opzioni per evitare il lock-in su un unico fornitore e per valutare soluzioni on-premise o ibride, anche in ottica di sovranità dei dati.
Un altro elemento rilevante è la multimodalità: la capacità di ricevere screenshot, video di demo o diagrammi insieme al testo del codice rende il modello adatto a flussi di lavoro in cui il bug o il requisito si spiega meglio visivamente che a parole. Per un'agenzia che riceve segnalazioni da clienti non tecnici, questo può abbreviare il ciclo di comprensione del problema.
Limiti e cautele
I benchmark citati sono stati pubblicati da Moonshot, non riprodotti da laboratori indipendenti. È quindi prudente aspettare risultati su suite riconosciute come SWE-Bench Verified, Terminal Bench 2.0 o LiveCodeBench prima di trarre conclusioni definitive sul posizionamento assoluto del modello. Inoltre, K2.7-Code non è un modello generalista: eccelle sul codice, ma non è la scelta migliore per chat libera, creatività pura o compiti linguistici non tecnici.
Il self-hosting richiede infrastruttura seria. Cinquecentonovantacinque gigabyte di pesi e un'architettura MoE da far girare efficientemente non sono alla portata di un normale desktop: servono server dotati di memoria e GPU adeguate, oltre a competenze di inference engineering. Anche l'uso via API, sebbene più accessibile, è un servizio a consumo che va pianificato con attenzione per evitare sorprese in fattura. Infine, la licenza Modified MIT, pur permissiva, contiene clausole specifiche che vanno lette direttamente nel repository prima di un uso commerciale o di una redistribuzione.
Dove trovarlo
I pesi del modello sono disponibili su Hugging Face, mentre la documentazione ufficiale e l'accesso API si trovano su platform.moonshot.ai. Il codice sorgente di Kimi Code CLI è pubblicato su GitHub sotto licenza MIT. Per chi vuole provare il modello senza configurare un'infrastruttura dedicata, esistono anche piattaforme di routing come OpenRouter che espongono K2.7-Code attraverso un'unica API compatibile con diversi provider.
Per fondatori e team tecnici italiani, il consiglio operativo è quello che vale per ogni nuovo modello: non affidarsi solo ai numeri di lancio, ma testarlo sui propri repository, con i propri linguaggi e i propri workflow. Il benchmark che conta davvero è quello che misurate sul vostro codice.
🧠Osservatorio Modelli AI
Moondream: famiglia di Vision-Language Model open source efficienti