
Gemma 4 12B: modello multimodale open di Google per laptop
Scheda tecnica del modello encoder-free rilasciato da Google DeepMind nel giugno 2026: architettura, requisiti, punti di forza e limiti.
Cos'è
Gemma 4 12B è un modello di linguaggio multimodale a pesi aperti sviluppato da Google DeepMind. È stato annunciato il 3 giugno 2026 come nuovo membro di taglia media della famiglia Gemma 4, inserendosi tra la variante edge E4B e il modello 26B a miscela di esperti (MoE). A differenza dei modelli precedenti della serie ottimizzati per dispositivi mobili o workstation, il 12B è pensato per laptop e server privati: un target hardware che include molte macchine consumer attuali.
Il modello è un transformer decoder-only denso con circa 11,95 miliardi di parametri. Accetta in input testo, immagini, audio e video in un'unica passata, producendo solo testo in output. È distribuito in due varianti: un checkpoint pre-addestrato (base) e una versione instruction-tuned (gemma-4-12b-it) per chat, assistenza e workflow agentici. I pesi sono pubblici sotto licenza Apache 2.0, che consente uso commerciale, modifica e redistribuzione senza i vincoli tipici delle licenze source-available.
A cosa serve / dove eccelle
Gemma 4 12B è progettato per portare capacità multimodali avanzate direttamente su hardware locale. Il suo punto di forza non è il punteggio assoluto su benchmark frontier, ma l'equilibrio tra prestazioni e footprint di memoria. Google dichiara che il 12B si avvicina al più grande Gemma 4 26B MoE su benchmark standard, con meno della metà dell'occupazione di memoria, e supera il precedente Gemma 3 27B su compiti di ragionamento e comprensione documentale.
Eccelle in scenari che richiedono:
- elaborazione multimodale locale senza dipendere da API cloud;
- ragionamento su documenti lunghi, codice e materiale visivo;
- workflow agentici con tool use su macchine consumer;
- applicazioni in cui la privacy e la sovranità dei dati sono prioritarie.
La natura open weight e la licenza permissiva lo rendono interessante per aziende, sviluppatori indipendenti e ricercatori che vogliono mantenere i dati on-premise o su dispositivi controllati.
Caratteristiche e specifiche
| Aspetto | Dettaglio |
|---|---|
| Parametri | ~11,95 miliardi (denso) |
| Architettura | Decoder-only transformer, encoder-free per visione e audio |
| Modelli input | Testo, immagini, audio, video |
| Output | Testo |
| Contesto massimo | 256.000 token (262.144) |
| Attenzione | Ibrida: sliding window locale più attenzione globale |
| Licenza | Apache 2.0 |
| Pesi disponibili | Hugging Face, Kaggle |
| Varianti |