Cos'è
Whisper large-v3 è un modello di riconoscimento vocale automatico (ASR) sviluppato da OpenAI e rilasciato nel novembre 2023. Rappresenta la terza generazione del modello Large della famiglia Whisper, introdotta per la prima volta nel settembre 2022. È un sistema di speech-to-text generico, addestrato su un vasto corpus di audio multilingue e progettato per funzionare in modo robusto su una grande varietà di accenti, rumori di fondo e domini applicativi senza necessità di addestramento specifico.
L'architettura è quella classica di un Transformer encoder-decoder: l'audio viene convertito in spettrogrammi log-Mel, elaborati dall'encoder, mentre il decoder genera autoregressivamente i token di testo. Il modello è multitask: le stesse identiche capacità (trascrizione, traduzione verso l'inglese, identificazione della lingua, predizione dei timestamp) vengono attivate attraverso token speciali all'inizio della sequenza, senza bisogno di modelli separati.
Whisper large-v3 è distribuito con licenza MIT, il che ne consente l'uso commerciale e l'integrazione in prodotti proprietari. I pesi sono disponibili pubblicamente su piattaforme come Hugging Face e possono essere eseguiti con l'implementazione ufficiale Python, con porting ottimizzati come whisper.cpp o faster-whisper, oppure tramite API di terze parti.
A cosa serve / dove eccelle
Whisper large-v3 eccelle in tutte le attività che richiedono la conversione di audio parlato in testo strutturato, specialmente quando è necessario un unico modello in grado di gestire più lingue. Il suo punto di forza principale è la generalizzazione zero-shot: il modello è stato addestrato su milioni di ore di audio reale provenienti dal web, quindi tollera condizioni acustiche difficili (rumore, riverb, microfoni di bassa qualità, parlato spontaneo) meglio di molti sistemi addestrati su dataset curati in laboratorio.
