Molmo (Ai2): che cos'è e come usarlo

Cos'è Molmo

Molmo è una famiglia di modelli di intelligenza artificiale multimodale sviluppata dall'Allen Institute for AI (Ai2), un istituto di ricerca no-profit con sede a Seattle. Il nome sta per Multimodal Open Language Model: l'obiettivo è combinare la comprensione del linguaggio naturale con la capacità di analizzare immagini e, nelle versioni più recenti, anche video. A differenza di molti concorrenti proprietari, Molmo è distribuito come open weight e, in molti casi, include anche codice, dati di addestramento e documentazione tecnica aperta.

La famiglia include varianti di diversa dimensione. Le prime versioni comprendono MolmoE-1B (un modello mixture-of-experts con 1 miliardo di parametri attivi su 7 miliardi totali), Molmo-7B-O (basato sul modello linguistico OLMo di Ai2), Molmo-7B-D (basato su Qwen2 7B) e Molmo-72B (basato su Qwen2 72B). Esiste poi Molmo 2, evoluzione con modelli da 4B, 7B e 8B parametri, pensata per il ragionamento visivo, la comprensione video, il pointing e il tracking di oggetti.

A cosa serve

Molmo serve a qualsiasi applicazione in cui un software deve "capire" ciò che mostra un'immagine o un video e rispondere in linguaggio naturale. Gli usi tipici includono: descrizione dettagliata di fotografie, risposta a domande visive (visual question answering), estrazione di testo dalle immagini, conteggio di oggetti, localizzazione di elementi in una scena e supporto a flussi di lavoro che combinano testo e visione.

Una caratteristica distintiva è la capacità di ciò che vede: se gli si chiede dove si trova un oggetto, Molmo può restituire coordinate o punti sull'immagine, non solo una descrizione testuale. Questo lo rende adatto a scenari di visivo, assistenza robotica, accessibilità, automazione di interfacce e sviluppo di agenti AI che interagiscono con il mondo fisico e digitale.

Molmo (Allen AI): famiglia open di modelli visione-linguaggio

Cos'è Molmo

A cosa serve

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Come funziona

Versioni e licenza

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione