
NuExtract: modello per estrarre dati strutturati da documenti
Famiglia di modelli vision-language di NuMind per convertire testi, scansioni e immagini in JSON o Markdown, con API e versioni open weight.
Cos'è
NuExtract è una famiglia di modelli di intelligenza artificiale sviluppata da NuMind, specializzata nell'estrazione strutturata di informazioni da documenti. A differenza dei modelli linguistici generici, progettati per dialogare, riassumere o generare testo, NuExtract è fine-tunato per un compito preciso: trasformare un input non strutturato — testo, immagini di documenti o una combinazione dei due — in un output JSON che rispetta uno schema definito dall'utente, oppure in Markdown pulito.
La prima versione pubblica era un modello testuale basato su Phi-3-mini, addestrato su un dataset sintetico privato per l'estrazione pura: il modello restituiva testo già presente nel documento, riducendo il rischio di allucinazioni. Con il tempo la famiglia si è evoluta: le versioni successive hanno aggiunto il supporto multimodale, la capacità di astrazione, l'in-context learning e, nella release più recente, un'architettura vision-language unificata con ragionamento integrato.
A cosa serve / dove eccelle
NuExtract eccelle quando è necessario convertire documenti complessi in dati strutturati senza scrivere regole ad hoc per ogni formato. Il suo punto di forza è l'estrazione guidata da template: l'utente fornisce un JSON che descrive i campi desiderati e i loro tipi, e il modello popola i valori leggendo il documento.
Funziona particolarmente bene su:
- Documenti testuali come contratti, articoli, report tecnici, email;
- Documenti scansionati, scontrini, fatture, moduli, carte d'identità;
- PDF con layout ricchi, tabelle e immagini, che perdono informazioni se convertiti semplicemente in testo;
- Flussi multilingue, grazie al supporto per un ampio numero di lingue.
Oltre all'estrazione strutturata, il modello più recente offre anche conversione in Markdown, utile per preprocessare documenti da usare in sistemi RAG o knowledge base.
Caratteristiche e specifiche
La famiglia NuExtract include diverse varianti. Le prime versioni erano testuali, con modelli di dimensioni ridotte (intorno a 0,5-3,8 miliardi di parametri) basati su Qwen, Phi o SmolLM. La versione 2.0 ha introdotto modelli multimodali basati su Qwen VL, in taglie open weight da circa 2, 4 e 8 miliardi di parametri, oltre a una variante PRO più grande disponibile tramite API.
La versione corrente, NuExtract 3, è descritta come un modello vision-language unificato da 4 miliardi di parametri, pensato per l'estrazione strutturata e la conversione Markdown. Supporta input testuali, immagini singole o multiple, e documenti composti da entrambi. Il contesto è ampio: la documentazione tecnica riporta configurazioni fino a 131.072 token, anche se per deployment con risorse limitate si consiglia di ridurre la lunghezza massima.
Il modello accetta template JSON nei quali ogni campo è tipizzato. I tipi supportati includono:
verbatim-string: estrae il testo esattamente come appare;