Cosa progettiamo
Cluster IA-ready, non Kubernetes generico
Un cluster Kubernetes che ospita carichi IA ha requisiti molto diversi da uno generico. GPU scheduling, vector storage, observability LLM-specifica, isolation tra tenant. Disegnamo per queste esigenze fin dal primo giorno.
Design del cluster
Topologia nodi (CPU pool + GPU pool), networking, ingress, storage tiered, backup. Scelta tra distribuzione managed (EKS, GKE, AKS), self-managed (kubeadm, k3s, RKE2) o appliance (microk8s, Talos). La scelta segue i vincoli reali, non la moda.
GPU scheduling e model serving
GPU sharing tra carichi, time-slicing quando ha senso, dedicato quando è critico. Integrazione con vLLM, Ollama, Triton Inference Server. Autoscaling reattivo al carico, con limiti di costo configurabili.
Storage e vector database
Storage class per workload diversi (modelli pesanti, vector index in memoria, log strutturati). Deploy di Qdrant, Weaviate, pgvector come servizi cluster-native con backup, replicazione, monitoring.
Sicurezza e hardening
NetworkPolicy strict-by-default, PodSecurityStandard restricted, secret management con sealed-secrets o External Secrets Operator, audit logging, RBAC granulare. Hardening secondo CIS Kubernetes Benchmark.