Whisper — Modello e libreria Python MIT per trascrizione automatica del parlato in 99+ lingue senza server nativo

Modello e libreria Python MIT per trascrizione automatica del parlato in 99+ lingue senza server nativo

Model Serving & Local Inference Open source Production-ready

Whisper è una libreria Python MIT e CLI per trascrizione automatica del parlato. Si installa con pip install openai-whisper (richiede ffmpeg e PyTorch) e si usa da Python o terminale. Il modello default è 'turbo' (versione ottimizzata di large-v3, ~6GB VRAM, 8x più veloce del large). Non include REST API, server, UI né multi-utente: è uno strumento di inferenza pura. Per deployment production come servizio è necessario un wrapper (FastAPI, Triton, o alternative come faster-whisper con CTranslate2 o whisper.cpp in C++). GPU auto-rilevata (CUDA) ma non obbligatoria per modelli small/base.

Perché è nel catalogo

Con ~101k star GitHub, Whisper è il modello ASR open-source più adottato. MIT permette uso commerciale senza restrizioni. La qualità di trascrizione multilingue è competitiva con soluzioni proprietarie. Per stack AI enterprise, Whisper è il punto di partenza per pipeline di trascrizione: faster-whisper o whisper.cpp sono le scelte di riferimento per performance ottimizzata in production. La distinzione tra libreria OSS e Whisper API a pagamento di OpenAI deve essere comunicata chiaramente.

Come lo integriamo

Non installiamo semplicemente Whisper. Lo integriamo in uno stack AI controllato, documentato e mantenibile: wrapping in inference server FastAPI o faster-whisper, containerizzazione Docker per deploy su Kubernetes, gestione modelli per dimensione/performance, monitoraggio delle trascrizioni e documentazione operativa completa.

Licenza

SPDX: MIT
MIT License
MIT permissiva senza restrizioni commerciali. I pesi del modello sono distribuiti sotto la stessa licenza MIT. Nessun CLA richiesto. La OpenAI Whisper API (api.openai.com) è un servizio a pagamento completamente separato dalla libreria open-source.

Caratteristiche tecniche

Docker— no
Kubernetes— no
Helm chart— no
Self-hosted✓ sì
GPU richiesta— no
GPU noteGPU (CUDA) auto-rilevata ma non obbligatoria. Raccomandato per modelli medium/large (VRAM: ~5-10GB). Modelli tiny/base funzionano bene su CPU. Modello large su CPU è molto lento.
Multi-utente— no
Auth/RBACNon applicabile. Nessun server né API nativa.
Persistenza— no
LinguaggioPython
Ultima release20250625 (2025-06-25)
Manutenzione attiva✓ sì
GitHub stars (approx)101.000
AziendaOpenAI

Note editoriali

IMPORTANTE: Whisper è una libreria e un modello, non un servizio. Qualsiasi deployment production richiede la costruzione di un wrapper API. Per performance ottimizzata su CPU e GPU raccomandare faster-whisper (CTranslate2, ~4x più veloce) o whisper.cpp (C++, CPU-ottimizzato con quantizzazione). Il modello 'turbo' è il default raccomandato ma NON supporta task di traduzione (restituisce la lingua originale). Chiarire ai clienti la distinzione tra libreria MIT (gratuita) e OpenAI Whisper API (a pagamento, api.openai.com).

Fonti di riferimento