Falcon-Mamba 7B: modello AI open source senza attention

Cos'è Falcon-Mamba

Falcon-Mamba 7B è un modello di linguaggio di grandi dimensioni (LLM) sviluppato dal Technology Innovation Institute (TII) di Abu Dhabi, ente di ricerca degli Emirati Arabi Uniti noto per la famiglia open source Falcon. Si tratta di un modello causale decoder-only con circa 7 miliardi di parametri, addestrato principalmente in inglese su circa 5.500 miliardi di token provenienti dal dataset RefinedWeb, integrato con dati tecnici, codice, matematica e una piccola parte di dati curati di alta qualità come Fineweb-edu.

La sua caratteristica distintiva è l'architettura: Falcon-Mamba è un modello Mamba puro, ovvero uno State Space Language Model (SSLM). A differenza dei LLM dominanti basati su self-attention, non utilizza cache chiave-valore (KV cache) e non richiede di memorizzare tutti i token precedenti per generare il successivo. Questo lo rende, almeno in teoria, in grado di elaborare sequenze di lunghezza arbitraria senza che i requisiti di memoria crescano linearmente con il contesto. Il modello è rilasciato sotto la TII Falcon-Mamba License 2.0, una licenza permissiva derivata da Apache 2.0 che ne consente l'uso commerciale e di ricerca, con alcune clausole specifiche sull'accettazione di una policy di uso responsabile.

A cosa serve

Falcon-Mamba 7B è progettato per compiti di generazione e comprensione del linguaggio naturale: completamento di testi, riassunto di documenti, risposta a domande, classificazione, estrazione di informazioni e assistenza alla scrittura di codice. Accanto alla versione base esiste anche una variante Instruct, affinata con circa 5 miliardi di token di supervised fine-tuning (SFT) per seguire istruzioni in formato chat e rispondere in modo più controllato.

Falcon-Mamba 7B: modello linguistico open source senza attention

Cos'è Falcon-Mamba

A cosa serve

🤔 Hai domande su questo argomento?

Continua a leggere

Veo 3 (Google): modello di generazione video AI con audio nativo

Stable Video Diffusion (Stability AI): image-to-video open

Come funziona

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo

Sora (OpenAI): modello di generazione video da testo e immagini

Sana (NVIDIA): modello open di sintesi immagini ad alta risoluzione