faster-whisper — Reimplementazione Whisper con CTranslate2: 4x più veloce, VRAM dimezzata, MIT, libreria Python

Reimplementazione Whisper con CTranslate2: 4x più veloce, VRAM dimezzata, MIT, libreria Python

Model Serving & Local Inference Open source Production-ready

faster-whisper è una libreria Python MIT e CLI che reimplementa il modello Whisper di OpenAI usando CTranslate2 per ottimizzare l'inferenza su CPU e GPU. Il repo canonico è SYSTRAN/faster-whisper (il fork originale guillaumekln/faster-whisper reindirizza automaticamente a SYSTRAN). Supporta tutti i modelli Whisper (tiny/base/small/medium/large/turbo) con quantizzazione int8, VAD Silero integrata e timestamp word-level. Non include REST API né server multi-utente: per servizi API è necessario un wrapper come `speaches` (FastAPI, OpenAI-compatibile). Installazione: pip install faster-whisper.

Perché è nel catalogo

faster-whisper è la scelta di riferimento per deployment production di Whisper su hardware limitato: la quantizzazione int8 riduce significativamente VRAM e tempo di inferenza. La VAD integrata filtra automaticamente il silenzio migliorando accuratezza e performance. Per stack AI enterprise che richiedono trascrizione audio efficiente, faster-whisper abbinato a un wrapper FastAPI è la combinazione raccomandata per un inference server ASR containerizzabile.

Come lo integriamo

Non installiamo semplicemente faster-whisper. Lo integriamo in uno stack AI controllato, documentato e mantenibile: inference server FastAPI con endpoint OpenAI-compatibile, containerizzazione Docker, scelta del modello e quantizzazione appropriata al carico, monitoraggio delle trascrizioni e documentazione operativa completa.

Licenza

SPDX: MIT
MIT License
MIT permissiva senza restrizioni commerciali. I pesi del modello Whisper sono distribuiti da OpenAI sotto licenza MIT separata. Nessun CLA richiesto.

Caratteristiche tecniche

Docker	— no
Kubernetes	— no
Helm chart	— no
Self-hosted	✓ sì
GPU richiesta	— no
GPU note	GPU opzionale (CUDA). Quantizzazione int8 CPU permette inferenza efficiente su CPU-only. GPU raccomandata per latenza bassa su modelli medium/large.
Multi-utente	— no
Auth/RBAC	Non applicabile. Nessun server nativo.
Persistenza	— no
Linguaggio	Python
Ultima release	1.2.1 (2025-11-15)
Manutenzione attiva	✓ sì
GitHub stars (approx)	23.000
Azienda	SYSTRAN (maintainer del repo canonico)

Note editoriali

Il repo originale guillaumekln/faster-whisper esegue redirect automatico a SYSTRAN/faster-whisper: usare sempre l'URL SYSTRAN come riferimento canonico. Nessuna REST API nativa: comunicare ai clienti che il deployment production richiede obbligatoriamente un wrapper server. `speaches` è il wrapper FastAPI OpenAI-compatibile raccomandato dalla community per deployment su Docker/K8s.