faster-whisper — Reimplementazione Whisper con CTranslate2: 4x più veloce, VRAM dimezzata, MIT, libreria Python
Reimplementazione Whisper con CTranslate2: 4x più veloce, VRAM dimezzata, MIT, libreria Python
faster-whisper è una libreria Python MIT e CLI che reimplementa il modello Whisper di OpenAI usando CTranslate2 per ottimizzare l'inferenza su CPU e GPU. Il repo canonico è SYSTRAN/faster-whisper (il fork originale guillaumekln/faster-whisper reindirizza automaticamente a SYSTRAN). Supporta tutti i modelli Whisper (tiny/base/small/medium/large/turbo) con quantizzazione int8, VAD Silero integrata e timestamp word-level. Non include REST API né server multi-utente: per servizi API è necessario un wrapper come `speaches` (FastAPI, OpenAI-compatibile). Installazione: pip install faster-whisper.
Perché è nel catalogo
faster-whisper è la scelta di riferimento per deployment production di Whisper su hardware limitato: la quantizzazione int8 riduce significativamente VRAM e tempo di inferenza. La VAD integrata filtra automaticamente il silenzio migliorando accuratezza e performance. Per stack AI enterprise che richiedono trascrizione audio efficiente, faster-whisper abbinato a un wrapper FastAPI è la combinazione raccomandata per un inference server ASR containerizzabile.
Come lo integriamo
Non installiamo semplicemente faster-whisper. Lo integriamo in uno stack AI controllato, documentato e mantenibile: inference server FastAPI con endpoint OpenAI-compatibile, containerizzazione Docker, scelta del modello e quantizzazione appropriata al carico, monitoraggio delle trascrizioni e documentazione operativa completa.
Licenza
SPDX: MIT
MIT License
MIT permissiva senza restrizioni commerciali. I pesi del modello Whisper sono distribuiti da OpenAI sotto licenza MIT separata. Nessun CLA richiesto.
Caratteristiche tecniche
| Docker | — no |
| Kubernetes | — no |
| Helm chart | — no |
| Self-hosted | ✓ sì |
| GPU richiesta | — no |
| GPU note | GPU opzionale (CUDA). Quantizzazione int8 CPU permette inferenza efficiente su CPU-only. GPU raccomandata per latenza bassa su modelli medium/large. |
| Multi-utente | — no |
| Auth/RBAC | Non applicabile. Nessun server nativo. |
| Persistenza | — no |
| Linguaggio | Python |
| Ultima release | 1.2.1 (2025-11-15) |
| Manutenzione attiva | ✓ sì |
| GitHub stars (approx) | 23.000 |
| Azienda | SYSTRAN (maintainer del repo canonico) |
Note editoriali
Il repo originale guillaumekln/faster-whisper esegue redirect automatico a SYSTRAN/faster-whisper: usare sempre l'URL SYSTRAN come riferimento canonico. Nessuna REST API nativa: comunicare ai clienti che il deployment production richiede obbligatoriamente un wrapper server. `speaches` è il wrapper FastAPI OpenAI-compatibile raccomandato dalla community per deployment su Docker/K8s.