ERNIE 4.5 (Baidu): scheda modello AI multimodale open source

Cos'è

ERNIE 4.5 è una famiglia di modelli fondazionali multimodali sviluppata da Baidu, l'azienda tecnologica cinese nota per il motore di ricerca omonimo e per il suo ecosistema di intelligenza artificiale. La serie include dieci varianti che coprono modelli linguistici di grandi dimensioni (LLM) e modelli visivo-linguistici (VLM), progettati per comprendere e generare testo, analizzare immagini, ragionare su contenuti visivi e interagire con input multimodali. Il nome ERNIE è l'acronimo di "Enhanced Representation through kNowledge IntEgration", a sottolineare l'attenzione storica di Baidu all'integrazione di conoscenza esplicita nei modelli di linguaggio.

A cosa serve

I modelli ERNIE 4.5 sono pensati per applicazioni enterprise e di ricerca che richiedono comprensione del linguaggio naturale, ragionamento logico-matematico, analisi di documenti, immagini e video, nonché sviluppo di agenti AI multimodali. Le varianti VLM supportano attività come il riconoscimento di oggetti, la comprensione di grafici e diagrammi, il visual grounding, il ragionamento STEM da immagini e la comprensione temporale di contenuti video. Le varianti di ragionamento ("thinking") aggiungono capacità di ragionamento a più passaggi su compiti verificabili, avvicinandosi alle prestazioni di modelli specializzati come OpenAI o1 su benchmark visivi come MathVista, MMMU e VisualPuzzle.

Come funziona

L'architettura di base è a Mixture of Experts (MoE): il modello attiva solo un sottoinsieme di parametri per ogni token, riducendo i costi computazionali pur mantenendo una grande capacità complessiva. Secondo la documentazione ufficiale, la famiglia spazia da un modello denso da 0,3 miliardi di parametri fino al modello più grande con 424 miliardi di parametri totali, di cui 47 miliardi attivi nei modelli MoE principali e 3 miliardi attivi nelle varianti compatte. La chiave dell'efficienza sta nell'attivazione selettiva: invece di usare tutti i parametri per ogni token in input, il router dell'architettura MoE dirige il calcolo verso un numero limitato di esperti specializzati, permettendo di scalare la capacità del modello senza aumentare proporzionalmente il costo di inferenza.

ERNIE 4.5 (Baidu): famiglia di modelli multimodali open source

Cos'è

A cosa serve

Come funziona

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Varianti principali

Licenza e dove si trova

Perché conta per founder, PMI e agenzie italiane

Sintesi

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione