NVLM 1.0 NVIDIA: modello VLM open weight 72B

Cos'è NVLM 1.0

NVLM 1.0 è una famiglia di modelli di linguaggio multimodale (Multimodal Large Language Model, MLLM) sviluppata da NVIDIA e presentata nel settembre 2024. L'obiettivo del progetto è dimostrare che un modello open weight può competere con i sistemi proprietari di punta su compiti che richiedono contemporaneamente comprensione del testo e dell'immagine. NVIDIA ha rilasciato i pesi e il codice di riferimento per la comunità di ricerca, rendendo NVLM 1.0 un punto di riferimento nello sviluppo di modelli visivo-linguistici aperti.

La famiglia comprende tre varianti architetturali, tutte con 72 miliardi di parametri: NVLM-D, con architettura decoder-only; NVLM-X, basata su cross-attention; e NVLM-H, un'architettura ibrida che combina i vantaggi delle due precedenti. La versione più nota e disponibile pubblicamente è NVLM-D-72B, distribuita attraverso Hugging Face.

A cosa serve

NVLM 1.0 è progettato per risolvere compiti di vision-language e testo puro. Può analizzare immagini, leggere testo presente in scene fotografiche o documenti (OCR), interpretare grafici e tabelle, descrivere dettagliatamente il contenuto visivo e rispondere a domande che richiedono ragionamento multimodale. È inoltre in grado di affrontare problemi di matematica visiva, coding da pseudocodice o screenshot, e domande che combinano conoscenza di mondo e percezione visiva.

Rispetto a molti modelli multimodali aperti, NVLM 1.0 mantiene — e in alcuni casi migliora — le prestazioni sul testo puro rispetto al suo backbone linguistico. Questo lo rende adatto a scenari ibridi in cui un'applicazione deve passare senza soluzione di continuità tra conversazioni testuali e analisi di immagini, senza dover gestire due modelli separati.

Come funziona

L'architettura di NVLM 1.0 si appoggia a due componenti principali: un large language model (LLM) testuale e un encoder visivo. Per le varianti da 72 miliardi di parametri, NVIDIA ha utilizzato Qwen2-72B-Instruct come backbone linguistico e InternViT-6B-448px-V1-5 come encoder delle immagini, mantenuto congelato durante l'addestramento.

NVLM 1.0 (NVIDIA): VLM open weight da 72 miliardi di parametri

Cos'è NVLM 1.0

A cosa serve

Come funziona

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo e come usarlo

Limiti e licenza

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione