Promptfoo — Framework MIT per LLM evaluation e red teaming con CLI, web UI e CI/CD integration — 60+ provider

Framework MIT per LLM evaluation e red teaming con CLI, web UI e CI/CD integration — 60+ provider

Automation & Integration Open source Production-ready

Promptfoo è una CLI e libreria Node.js MIT per LLM evaluation sistematica. I test vengono definiti in file YAML con variabili, provider da confrontare e assertion (string match, regex, LLM judge, custom function). La web UI locale (porta 15500) visualizza risultati comparativi. Red teaming automatizzato con 200+ plugin per simulare attacchi (PII, prompt injection, OWASP LLM Top 10, jailbreak). Supporta 60+ provider LLM. Community Edition: evaluation completa + red teaming (cappato a 10k probe/mese). Enterprise Edition: team collaboration, SSO, RBAC, monitoring continuo, dashboard centralizzate, probe illimitate. Helm chart (sperimentale) disponibile per Kubernetes.

Perché è nel catalogo

Promptfoo affronta un problema critico per deployment enterprise di LLM: la valutazione sistematica della qualità e della sicurezza dei prompt prima del go-live. Il red teaming con 200+ categorie di attacco standardizzate (OWASP LLM Top 10) è tra i più completi disponibili open-source. L'integrazione CI/CD permette di includere i test LLM nel pipeline di deployment esistente. La licenza MIT e la promessa di restare provider-agnostic post-acquisizione OpenAI sono da monitorare nel tempo.

Come lo integriamo

Non installiamo semplicemente Promptfoo. Lo integriamo in uno stack AI controllato, documentato e mantenibile: configurazione test case per ogni componente LLM dello stack, pipeline CI/CD con gate di qualità automatici, red teaming periodico e documentazione dei risultati di valutazione.

Licenza

SPDX: MIT
MIT License
MIT permissiva senza restrizioni commerciali. Il team si è impegnato pubblicamente a mantenere la licenza MIT e la neutralità verso i provider dopo l'acquisizione OpenAI. Monitorare eventuali cambiamenti post-acquisizione.

Caratteristiche tecniche

Docker	✓ sì
Kubernetes	✓ sì
Helm chart	✓ sì
Self-hosted	✓ sì
GPU richiesta	— no
GPU note	Nessuna GPU richiesta. Framework di testing/evaluation, non inferenza.
Multi-utente	— no
Auth/RBAC	Community: nessun auth. Enterprise: SSO, RBAC, team management.
Persistenza	— no
Linguaggio	TypeScript
Ultima release	0.121.15 (2025)
Manutenzione attiva	✓ sì
GitHub stars (approx)	8.800
Azienda	Promptfoo (in acquisizione da OpenAI, annunciata marzo 2026)

Note editoriali

RISCHIO ACQUISIZIONE: OpenAI ha annunciato l'acquisizione a marzo 2026 (~$86M). Il team si è impegnato pubblicamente a mantenere MIT e provider-agnostic, ma la storia delle acquisizioni big-tech di tool open-source richiede monitoraggio. Risk level impostato a medium per questa incertezza strategica. Il limite di 10k probe/mese per il red teaming community è una limitazione rilevante per testing di produzione — valutare Enterprise Edition se il red teaming è parte del workflow. Helm chart sperimentale: non raccomandato per deployment production Kubernetes senza test approfonditi.