Cos'è NVLM 1.0
NVLM 1.0 è una famiglia di modelli di linguaggio multimodale (Multimodal Large Language Model, MLLM) sviluppata da NVIDIA e presentata nel settembre 2024. L'obiettivo del progetto è dimostrare che un modello open weight può competere con i sistemi proprietari di punta su compiti che richiedono contemporaneamente comprensione del testo e dell'immagine. NVIDIA ha rilasciato i pesi e il codice di riferimento per la comunità di ricerca, rendendo NVLM 1.0 un punto di riferimento nello sviluppo di modelli visivo-linguistici aperti.
La famiglia comprende tre varianti architetturali, tutte con 72 miliardi di parametri: NVLM-D, con architettura decoder-only; NVLM-X, basata su cross-attention; e NVLM-H, un'architettura ibrida che combina i vantaggi delle due precedenti. La versione più nota e disponibile pubblicamente è NVLM-D-72B, distribuita attraverso Hugging Face.
A cosa serve
NVLM 1.0 è progettato per risolvere compiti di vision-language e testo puro. Può analizzare immagini, leggere testo presente in scene fotografiche o documenti (OCR), interpretare grafici e tabelle, descrivere dettagliatamente il contenuto visivo e rispondere a domande che richiedono ragionamento multimodale. È inoltre in grado di affrontare problemi di matematica visiva, coding da pseudocodice o screenshot, e domande che combinano conoscenza di mondo e percezione visiva.
Rispetto a molti modelli multimodali aperti, NVLM 1.0 mantiene — e in alcuni casi migliora — le prestazioni sul testo puro rispetto al suo backbone linguistico. Questo lo rende adatto a scenari ibridi in cui un'applicazione deve passare senza soluzione di continuità tra conversazioni testuali e analisi di immagini, senza dover gestire due modelli separati.
Come funziona
L'architettura di NVLM 1.0 si appoggia a due componenti principali: un large language model (LLM) testuale e un encoder visivo. Per le varianti da 72 miliardi di parametri, NVIDIA ha utilizzato Qwen2-72B-Instruct come backbone linguistico e InternViT-6B-448px-V1-5 come encoder delle immagini, mantenuto congelato durante l'addestramento.
