
Kokoro TTS: modello open-weight di sintesi vocale da 82M parametri
Scheda tecnica su Kokoro, il text-to-speech leggero con licenza Apache 2.0, qualità elevata e bassi requisiti hardware.
Cos'è
Kokoro è un modello di text-to-speech (TTS) open-weight con soli 82 milioni di parametri, pubblicato sotto licenza Apache 2.0. Il nome deriva dal giapponese kokoro (cuore, spirito). Il modello è stato rilasciato inizialmente il 25 dicembre 2024 con la versione v0.19 e aggiornato alla versione v1.0 il 27 gennaio 2025. L'autore è noto come @rzvzn all'interno della community di sviluppo.
Kokoro è basato sull'architettura StyleTTS 2, con vocoder ISTFTNet, ed è progettato come decoder-only: non utilizza diffusione né rilascia un encoder separato. La particolarità del modello è di offrire una qualità di sintesi vocale comparabile a modelli molto più grandi pur mantenendo dimensioni ridotte, velocità di inferenza elevate e requisiti hardware contenuti. Il successo di Kokoro ha attirato l'attenzione di sviluppatori indipendenti e aziende, spingendo anche NVIDIA a rilasciare una versione ONNX ottimizzata per l'inferenza su CPU e GPU.
A cosa serve / dove eccelle
Kokoro trasforma testo scritto in audio parlato. Eccelle in scenari dove contano efficienza, leggerezza e libertà di licenza:
- Sintesi vocale in tempo reale o in streaming per applicazioni interattive.
- Deploy su hardware limitato, inclusi CPU consumer e dispositivi edge.
- Progetti commerciali e open source che richiedono una licenza permissiva.
- Produzione di audiolibri, podcast, contenuti accessibili e assistenti vocali.
- Pipeline di sintesi vocale integrate in sistemi più ampi, come agenti conversazionali o piattaforme di content creation.
Il modello ha ottenuto un'elevata valutazione nella TTS Spaces Arena di Hugging Face, classificandosi tra i migliori modelli open source nonostante una dimensione nettamente inferiore rispetto a concorrenti come XTTS v2, Fish Speech o MetaVoice. Questo risultato ha sollevato discussioni nella community sulla possibilità che le leggi di scalabilità tradizionali del TTS possano essere più favorevoli di quanto si ritenesse, almeno per determinati domini applicativi.
Caratteristiche e specifiche
| Caratteristica | Dettaglio |
|---|---|
| Parametri | 82 milioni |
| Architettura | StyleTTS 2 + ISTFTNet, decoder-only |
| Licenza | Apache 2.0 (pesi e codice di inferenza principale) |
| Lingue supportate (v1.0) | Inglese americano, inglese britannico, spagnolo, francese, hindi, italiano, giapponese, portoghese brasiliano, cinese mandarino |