Promptfoo — Framework MIT per LLM evaluation e red teaming con CLI, web UI e CI/CD integration — 60+ provider
Framework MIT per LLM evaluation e red teaming con CLI, web UI e CI/CD integration — 60+ provider
Promptfoo è una CLI e libreria Node.js MIT per LLM evaluation sistematica. I test vengono definiti in file YAML con variabili, provider da confrontare e assertion (string match, regex, LLM judge, custom function). La web UI locale (porta 15500) visualizza risultati comparativi. Red teaming automatizzato con 200+ plugin per simulare attacchi (PII, prompt injection, OWASP LLM Top 10, jailbreak). Supporta 60+ provider LLM. Community Edition: evaluation completa + red teaming (cappato a 10k probe/mese). Enterprise Edition: team collaboration, SSO, RBAC, monitoring continuo, dashboard centralizzate, probe illimitate. Helm chart (sperimentale) disponibile per Kubernetes.
Perché è nel catalogo
Promptfoo affronta un problema critico per deployment enterprise di LLM: la valutazione sistematica della qualità e della sicurezza dei prompt prima del go-live. Il red teaming con 200+ categorie di attacco standardizzate (OWASP LLM Top 10) è tra i più completi disponibili open-source. L'integrazione CI/CD permette di includere i test LLM nel pipeline di deployment esistente. La licenza MIT e la promessa di restare provider-agnostic post-acquisizione OpenAI sono da monitorare nel tempo.
Come lo integriamo
Non installiamo semplicemente Promptfoo. Lo integriamo in uno stack AI controllato, documentato e mantenibile: configurazione test case per ogni componente LLM dello stack, pipeline CI/CD con gate di qualità automatici, red teaming periodico e documentazione dei risultati di valutazione.
Licenza
SPDX: MIT
MIT License
MIT permissiva senza restrizioni commerciali. Il team si è impegnato pubblicamente a mantenere la licenza MIT e la neutralità verso i provider dopo l'acquisizione OpenAI. Monitorare eventuali cambiamenti post-acquisizione.
Caratteristiche tecniche
| Docker | ✓ sì |
| Kubernetes | ✓ sì |
| Helm chart | ✓ sì |
| Self-hosted | ✓ sì |
| GPU richiesta | — no |
| GPU note | Nessuna GPU richiesta. Framework di testing/evaluation, non inferenza. |
| Multi-utente | — no |
| Auth/RBAC | Community: nessun auth. Enterprise: SSO, RBAC, team management. |
| Persistenza | — no |
| Linguaggio | TypeScript |
| Ultima release | 0.121.15 (2025) |
| Manutenzione attiva | ✓ sì |
| GitHub stars (approx) | 8.800 |
| Azienda | Promptfoo (in acquisizione da OpenAI, annunciata marzo 2026) |
Note editoriali
RISCHIO ACQUISIZIONE: OpenAI ha annunciato l'acquisizione a marzo 2026 (~$86M). Il team si è impegnato pubblicamente a mantenere MIT e provider-agnostic, ma la storia delle acquisizioni big-tech di tool open-source richiede monitoraggio. Risk level impostato a medium per questa incertezza strategica. Il limite di 10k probe/mese per il red teaming community è una limitazione rilevante per testing di produzione — valutare Enterprise Edition se il red teaming è parte del workflow. Helm chart sperimentale: non raccomandato per deployment production Kubernetes senza test approfonditi.