Cos'è Molmo
Molmo è una famiglia di modelli di intelligenza artificiale multimodale sviluppata dall'Allen Institute for AI (Ai2), un istituto di ricerca no-profit con sede a Seattle. Il nome sta per Multimodal Open Language Model: l'obiettivo è combinare la comprensione del linguaggio naturale con la capacità di analizzare immagini e, nelle versioni più recenti, anche video. A differenza di molti concorrenti proprietari, Molmo è distribuito come open weight e, in molti casi, include anche codice, dati di addestramento e documentazione tecnica aperta.
La famiglia include varianti di diversa dimensione. Le prime versioni comprendono MolmoE-1B (un modello mixture-of-experts con 1 miliardo di parametri attivi su 7 miliardi totali), Molmo-7B-O (basato sul modello linguistico OLMo di Ai2), Molmo-7B-D (basato su Qwen2 7B) e Molmo-72B (basato su Qwen2 72B). Esiste poi Molmo 2, evoluzione con modelli da 4B, 7B e 8B parametri, pensata per il ragionamento visivo, la comprensione video, il pointing e il tracking di oggetti.
A cosa serve
Molmo serve a qualsiasi applicazione in cui un software deve "capire" ciò che mostra un'immagine o un video e rispondere in linguaggio naturale. Gli usi tipici includono: descrizione dettagliata di fotografie, risposta a domande visive (visual question answering), estrazione di testo dalle immagini, conteggio di oggetti, localizzazione di elementi in una scena e supporto a flussi di lavoro che combinano testo e visione.
Una caratteristica distintiva è la capacità di ciò che vede: se gli si chiede dove si trova un oggetto, Molmo può restituire coordinate o punti sull'immagine, non solo una descrizione testuale. Questo lo rende adatto a scenari di visivo, assistenza robotica, accessibilità, automazione di interfacce e sviluppo di agenti AI che interagiscono con il mondo fisico e digitale.
