Whisper large-v3: scheda del modello ASR open source di Open

Cos'è

Whisper large-v3 è un modello di riconoscimento vocale automatico (ASR) sviluppato da OpenAI e rilasciato nel novembre 2023. Rappresenta la terza generazione del modello Large della famiglia Whisper, introdotta per la prima volta nel settembre 2022. È un sistema di speech-to-text generico, addestrato su un vasto corpus di audio multilingue e progettato per funzionare in modo robusto su una grande varietà di accenti, rumori di fondo e domini applicativi senza necessità di addestramento specifico.

L'architettura è quella classica di un Transformer encoder-decoder: l'audio viene convertito in spettrogrammi log-Mel, elaborati dall'encoder, mentre il decoder genera autoregressivamente i token di testo. Il modello è multitask: le stesse identiche capacità (trascrizione, traduzione verso l'inglese, identificazione della lingua, predizione dei timestamp) vengono attivate attraverso token speciali all'inizio della sequenza, senza bisogno di modelli separati.

Whisper large-v3 è distribuito con licenza MIT, il che ne consente l'uso commerciale e l'integrazione in prodotti proprietari. I pesi sono disponibili pubblicamente su piattaforme come Hugging Face e possono essere eseguiti con l'implementazione ufficiale Python, con porting ottimizzati come whisper.cpp o faster-whisper, oppure tramite API di terze parti.

A cosa serve / dove eccelle

Whisper large-v3 eccelle in tutte le attività che richiedono la conversione di audio parlato in testo strutturato, specialmente quando è necessario un unico modello in grado di gestire più lingue. Il suo punto di forza principale è la generalizzazione zero-shot: il modello è stato addestrato su milioni di ore di audio reale provenienti dal web, quindi tollera condizioni acustiche difficili (rumore, riverb, microfoni di bassa qualità, parlato spontaneo) meglio di molti sistemi addestrati su dataset curati in laboratorio.

Caratteristica	Valore
Parametri	~1,55 miliardi
Architettura	Transformer encoder-decoder
Strati encoder/decoder	32 / 32
Dimensione nascosta	1.280
Teste di attenzione	20
Bins Mel	128 (aumentati rispetto agli 80 di v2)
Finestra audio	30 secondi con sovrapposizione per audio lunghi
Lingue supportate	99, incluso il cantonese aggiunto in v3
Compiti	Trascrizione, traduzione → inglese, identificazione lingua, timestamp
Licenza	MIT
VRAM tipica (FP16)	~10 GB
Data di rilascio	Novembre 2023

Whisper large-v3: scheda del modello ASR open source di OpenAI

Cos'è

A cosa serve / dove eccelle

🤔 Hai domande su questo argomento?

Continua a leggere

Qwen3-Embedding: embedding testuali multilingui open source di Alibaba Cloud

SmolLM3: scheda del modello di linguaggio compatto di Hugging Face

Caratteristiche e specifiche

Punti di forza

Quando ha senso (e quando no)

Casi d'uso concreti

Alternative e contesto

In sintesi

Risorse

Moondream: famiglia di Vision-Language Model open source efficienti

Kokoro TTS: modello open-weight di sintesi vocale da 82M parametri