Cos'è Phi-4 Multimodal
Phi-4-multimodal-instruct è un modello fondazionale multimodale sviluppato da Microsoft. Appartiene alla famiglia Phi, una linea di Small Language Models (SLM) progettati per offrire prestazioni elevate mantenendo dimensioni contenute. La variante multimodale si distingue perché unifica in un'unica rete tre modalità di input — testo, immagini e audio — generando output in linguaggio naturale.
Il modello conta 5,6 miliardi di parametri totali. Pur essendo compatto, è stato addestrato su una mole significativa di dati: circa 5 trilioni di token testuali, 2,3 milioni di ore di dati vocali e 1,1 trilione di coppie immagine-testo. Il contesto massimo è di 128.000 token, una finestra ampia che consente di gestire conversazioni lunghe, documenti estesi o contenuti audio di circa 2,8 ore in un'unica richiesta.
Rilasciato sotto licenza MIT, Phi-4-multimodal-instruct può essere utilizzato per scopi commerciali e di ricerca senza i vincoli tipici di altri modelli aperti. Questo lo rende particolarmente interessante per startup, agenzie e piccole-medie imprese che vogliono integrare l'intelligenza artificiale generativa nei propri prodotti senza dipendere esclusivamente da API cloud proprietarie.
Come funziona
L'architettura di Phi-4-multimodal si basa su un decoder Transformer con 32 livelli e Grouped Query Attention (GQA), una tecnica che riduce l'uso di memoria durante l'inferenza mantenendo la qualità delle risposte. Il cuore del modello è lo stesso backbone di Phi-4-mini, a cui vengono affiancati encoder specializzati per la visione e per l'audio.
Per la visione viene impiegato SigLIP-400M, un encoder che converte le immagini in rappresentazioni compatibili con lo spazio semantico del linguaggio. Per l'audio, il modello utilizza un encoder con 3 livelli CNN e 24 blocchi Conformer, che estraggono caratteristiche acustiche ad alta risoluzione. Tali rappresentazioni vengono poi proiettate nello spazio embedding del testo attraverso piccoli percettori a due strati, permettendo al modello di ragionare su immagini e suoni come se fossero sequenze linguistiche.
