
Letta: framework open-source per agenti AI con memoria persistente
Dalla ricerca MemGPT di UC Berkeley a piattaforma per costruire agenti stateful, model-agnostic e auto-miglioranti
Cos'è
Letta è un framework open-source per costruire agenti artificiali stateful, cioè capaci di ricordare, apprendere e adattarsi nel tempo. Nato nel 2023 come progetto di ricerca MemGPT al Berkeley Artificial Intelligence Research (BAIR) Lab e nello Sky Computing Lab di UC Berkeley, è stato rilanciato con il nome Letta nel settembre 2024, insieme all'annuncio dell'omonima società commerciale. Il nucleo del progetto rimane disponibile su GitHub con licenza Apache 2.0.
L'ambizione di Letta è fornire l'infrastruttura di memoria che i modelli di linguaggio non hanno nativamente: trasformare i LLM — per costruzione stateless — in agenti che mantengono identità, preferenze, fatti e cronologie attraverso conversazioni e sessioni diverse. A differenza di una semplice libreria di orchestrazione, Letta progetta la memoria come primitive architetturale centrale, non come accessorio aggiunto a un chatbot esistente.
Il progetto offre più interfacce: un server RESTful auto-ospitabile (letta/letta su Docker), SDK ufficiali per Python e TypeScript, una CLI chiamata Letta Code per eseguire agenti localmente nel terminale, e l'Agent Development Environment (ADE), un'interfaccia visiva per costruire e monitorare gli agenti.
Il problema che risolve
I modelli di linguaggio elaborano ogni richiesta a partire dal contesto fornito in quel momento. Quando la conversazione termina, il modello non conserva nulla: ogni nuova sessione riparte da zero. Questo limite rende difficile costruire applicazioni che richiedono relazioni durature con l'utente — assistenti personali, agenti di supporto, companion terapeutici, strumenti di coding a lungo termine — perché obbligano gli sviluppatori a reinventare a ogni turno meccanismi di memoria, contesto e personalizzazione.
Inoltre, anche all'interno di una singola conversazione, la context window ha dimensioni finite. Caricare interi storici o documenti esterni in ogni richiesta aumenta i costi, introduce rumore e degrada le prestazioni. La retrieval-augmented generation (RAG) mitiga il problema recuperando documenti rilevanti, ma resta un approccio esterno al modello: l'agente non "possiede" la memoria, non la aggiorna autonomamente e non la struttura in forma di conoscenza appresa. Letta si propone come soluzione a questo vuoto, fornendo un sistema di memoria gerarchica che l'agente stesso legge, scrive e modifica.
Come funziona
Letta implementa un'architettura di memoria ispirata alla gerarchia di un sistema operativo, ereditata dal paper MemGPT. La memoria è organizzata in livelli:
- Core memory: memoria a breve termine contenuta nel contesto attivo del modello, strutturata in memory blocks (blocchi etichettati come
human,persona,task, ecc.). È il punto di lavoro immediato dell'agente.