Docling è un toolkit open-source per l'elaborazione documentale sviluppato originariamente da IBM Research e successivamente donato alla Linux Foundation AI & Data nel 2024. Rilasciato sotto licenza MIT, si propone come ponte tra i documenti aziendali tradizionali e le applicazioni di intelligenza artificiale generativa. L'obiettivo è ambizioso ma chiaro: trasformare file non strutturati o semi-strutturati — PDF, Word, Excel, PowerPoint, email, immagini, audio — in dati leggibili, navigabili e pronti per essere indicizzati, ricercati o passati a modelli di linguaggio.
A differenza di molti parser che si limitano a estrarre il testo grezzo, Docling cerca di comprendere il documento. Riconosce la gerarchia dei titoli, l'ordine di lettura corretto, le tabelle, le formule matematiche, i blocchi di codice, le immagini, le didascalie e perfino i grafici. Il risultato non è un semplice copia-e-incolla, ma una rappresentazione intermedia chiamata DoclingDocument, che può essere esportata in Markdown, HTML, JSON o altri formati ottimizzati per pipeline di Retrieval-Augmented Generation e agenti AI.
A cosa serve
Docling risolve uno dei problemi più noiosi e costosi dell'AI aziendale: preparare i documenti interni perché un modello possa usarli davvero. Nelle PMI, nelle agenzie e negli studi professionali italiani, la conoscenza è spesso intrappolata in fatture PDF, contratti Word, preventivi Excel, presentazioni PowerPoint, verbali scansionati o email archiviate. Copiare il testo a mano non è scalabile; affidarsi a servizi cloud può creare problemi di riservatezza, costi ricorrenti e dipendenza da fornitori esteri.
Docling serve a:
Costruire knowledge base intelligenti: indicizzare manuali, regolamenti, documenti tecnici e FAQ per chatbot o motori di ricerca semantica.
Hai letto fino a qui
🤔 Hai domande su questo argomento?
Posso aiutarti a capire come applicarlo al tuo business. Scegli come vuoi parlarmi.
Alimentare sistemi RAG: produrre chunk di testo coerenti, con metadati di layout e struttura, per migliorare la precisione delle risposte dei LLM.
Automatizzare l'estrazione dati: trasformare tabelle da bilanci, fatture o report in dati strutturati utilizzabili in database o fogli di calcolo.
Processare documenti sensibili in locale: nessun file lascia l'infrastruttura, cosa fondamentale per GDPR, segreto professionale e dati sanitari o finanziari.
Digitalizzare archivi cartacei: grazie all'OCR integrato, anche scansioni e fotografie diventano testo ricercabile.
Per esempio, uno studio commercialista può usare Docling per estrarre in automatico tabelle da bilanci XBRL; un'agenzia può indicizzare brief e report creativi; un'azienda manifatturiera può caricare manuali di manutenzione in un assistente interno.
Come funziona
Docling si installa come libreria Python con pip install docling oppure si avvia come servizio API tramite docling-serve. È disponibile anche una CLI per conversioni puntuali. L'architettura è modulare: il documento viene prima analizzato da modelli specializzati, poi rappresentato in un formato unico e infine esportato nel formato desiderato.
Il cuore del sistema è il DoclingDocument, una rappresentazione ad oggetti che conserva la semantica del documento: paragrafi, titoli, liste, tabelle, figure, formule, note, header e footer. Ogni componente è annotato con coordinate, tipo e relazioni gerarchiche.
Per arrivarci, Docling combina diversi modelli:
DocLayNet per l'analisi del layout: capisce dove finisce un paragrafo e dove comincia una tabella, rispetta le colonne e l'ordine di lettura.
TableFormer per le tabelle: addestrato su oltre un milione di tabelle, ricostruisce righe, colonne, celle unite e intestazioni multilivello.
OCR per i documenti scansionati: supporta diversi motori di riconoscimento ottico dei caratteri per estrarre testo da immagini e PDF nati da scanner.
Modelli visuali opzionali: come Granite-Docling-258M, un modello compatto di IBM per migliorare la comprensione di layout complessi, formule e didascalie.
Docling supporta decine di formati in ingresso: PDF, DOCX, PPTX, XLSX, HTML, EPUB, ODT, ODS, ODP, EML, MSG, LaTeX, immagini, audio WAV/MP3/WebVTT e persino report finanziari XBRL e brevetti USPTO. In uscita offre Markdown pulito, HTML, testo puro, JSON con bounding box e metadati, DocTags e DocLang.
Architettura e modelli
L'architettura di Docling si divide in tre livelli. Il primo è il livello di parsing, responsabile di leggere il file sorgente e renderizzarlo in una sequenza di pagine e elementi. Il secondo è il livello di understanding, dove modelli di deep learning riconoscono la struttura logica: titoli, paragrafi, tabelle, liste, immagini, formule. Il terzo è il livello di export, che serializza il DoclingDocument nei formati più adatti al consumatore finale, sia esso un database vettoriale, un LLM o un semplice file Markdown.
Granite-Docling-258M è il modello visuale proprietario di IBM, rilasciato sotto licenza Apache 2.0, che offre un buon compromesso tra dimensioni e accuratezza. Non è obbligatorio: Docling funziona anche senza GPU e con modelli più leggeri, anche se su documenti densi l'uso di un acceleratore riduce i tempi in modo significativo.
Integrazioni e deployment
Docling si inserisce bene negli stack moderni. Offre integrazioni native con LangChain, LlamaIndex, Haystack e CrewAI; espone un server MCP per essere usato direttamente da agenti e IDE compatibili; e può essere orchestrato in pipeline di ingestion personalizzate. Per chi preferisce un'interfaccia HTTP, docling-serve consente di avviare un container Docker che accetta file e restituisce JSON o Markdown. Questo lo rende adatto sia a script Python locali sia a microservizi in produzione.
Perché conta
In Italia, dove molte aziende devono ancora digitalizzare processi amministrativi e tecnici, Docling rappresenta un'opportunità concreta. Permette di portare l'AI sui propri documenti senza cedere i dati a piattaforme esterne e senza pagare a richiesta. Per un'agenzia che deve analizzare centinaia di brief in PDF, per uno studio che deve estrarre dati da contratti, per una PMI che vuole un assistente interno sui manuali di qualità, Docling abbassa l'ingresso tecnico e il rischio operativo.
Rispetto a molte API cloud, Docling offre trasparenza: il codice è aperto, i modelli sono scaricabili, il processamento può avvenire on-premise o in cloud privato. Questo è decisivo per settori regolamentati come banca, assicurazione, sanità, pubblica amministrazione e legaltech. Inoltre, essendo progettato per la struttura e non solo per il testo, riduce le allucinazioni dei modelli: un LLM che riceve una tabella ben formattata e un ordine di lettura corretto ragiona meglio di uno che riceve un muro di testo disordinato.
Limiti e considerazioni
Docling non è una bacchetta magica. Su documenti semplici e già testuali, strumenti più leggeri possono essere sufficienti e più veloci. L'installazione completa con tutti i modelli può occupare diversi gigabyte e i tempi di avvio su CPU sono notevoli, specialmente per i primi documenti. La curva di apprendimento è più ripida rispetto a una semplice API cloud: occorre capire quali modelli scaricare, come configurare l'OCR e come fare chunking per il proprio caso d'uso. Per team piccoli con poche esigenze occasionali, potrebbe essere eccessivo.
Dove trovarlo
Il repository ufficiale è docling-project/docling su GitHub, pubblicato sotto licenza MIT. La documentazione completa, con esempi Python, guida all'installazione e integrazioni, è disponibile sul sito del progetto. Per chi vuole provarlo subito, basta pip install docling e usare la CLI o gli esempi ufficiali. Esistono anche immagini Docker e il progetto docling-serve per esporre le conversioni come API HTTP.
⭐Osservatorio Repo
LiveKit Agents: framework open-source per agenti vocali in tempo reale