Cos'è Pixtral
Pixtral è la famiglia di modelli multimodali sviluppata da Mistral AI, l'azienda francese specializzata in large language model open weight. A differenza dei modelli di sola generazione testuale, Pixtral è un vision-language model (VLM): riceve in input sia testo sia immagini e restituisce risposte testuali che combinano comprensione visiva e ragionamento linguistico. La famiglia include principalmente due varianti: Pixtral 12B, rilasciato con licenza Apache 2.0, e Pixtral Large, la versione più potente basata sull'architettura di Mistral Large 2.
Pixtral 12B è composto da un language model da 12 miliardi di parametri abbinato a un vision encoder da 400 milioni di parametri. Pixtral Large sale a 124 miliardi di parametri totali e offre prestazioni superiori su compiti che richiedono ragionamento multimodale complesso. Entrambi i modelli sono open weight, nel senso che i pesi sono scaricabili e utilizzabili in proprio, anche se le licenze differiscono tra le due versioni.
A cosa serve
Pixtral è progettato per comprendere contemporaneamente immagini naturali e documenti. Nei casi d'uso tipici si trova analisi di grafici, tabelle e figure, estrazione di testo da immagini e PDF scannerizzati, descrizione dettagliata di fotografie, risposte a domande visive e assistenza alla scrittura di codice che parte da screenshot di interfacce. Il modello è inoltre in grado di gestire più immagini all'interno della stessa conversazione, confrontandole o estraendo relazioni tra di esse.
La sua abilità nel leggere documenti lo rende adatto a flussi di optical character recognition avanzato, dove non basta trascrivere il testo ma è necessario interpretarne il significato in contesto. Per esempio, può trasformare una tabella fotografata in dati strutturati, riassumere un report a partire da screenshot di slide o verificare la coerenza tra un'immagine tecnica e la sua didascalia.
