Cos'è
NuExtract è una famiglia di modelli di intelligenza artificiale sviluppata da NuMind, specializzata nell'estrazione strutturata di informazioni da documenti. A differenza dei modelli linguistici generici, progettati per dialogare, riassumere o generare testo, NuExtract è fine-tunato per un compito preciso: trasformare un input non strutturato — testo, immagini di documenti o una combinazione dei due — in un output JSON che rispetta uno schema definito dall'utente, oppure in Markdown pulito.
La prima versione pubblica era un modello testuale basato su Phi-3-mini, addestrato su un dataset sintetico privato per l'estrazione pura: il modello restituiva testo già presente nel documento, riducendo il rischio di allucinazioni. Con il tempo la famiglia si è evoluta: le versioni successive hanno aggiunto il supporto multimodale, la capacità di astrazione, l'in-context learning e, nella release più recente, un'architettura vision-language unificata con ragionamento integrato.
A cosa serve / dove eccelle
NuExtract eccelle quando è necessario convertire documenti complessi in dati strutturati senza scrivere regole ad hoc per ogni formato. Il suo punto di forza è l'estrazione guidata da template: l'utente fornisce un JSON che descrive i campi desiderati e i loro tipi, e il modello popola i valori leggendo il documento.
Funziona particolarmente bene su:
- Documenti testuali come contratti, articoli, report tecnici, email;
- Documenti scansionati, scontrini, fatture, moduli, carte d'identità;
- PDF con layout ricchi, tabelle e immagini, che perdono informazioni se convertiti semplicemente in testo;
- Flussi multilingue, grazie al supporto per un ampio numero di lingue.
Oltre all'estrazione strutturata, il modello più recente offre anche conversione in Markdown, utile per preprocessare documenti da usare in sistemi RAG o knowledge base.
