Installazioni Private AI

Configuro il tuo stack AI privato. A casa, in azienda o nel tuo cloud.

Inferenza locale, RAG, agenti, vector database, osservabilità. Selezione del software, sizing dell'hardware, installazione, hardening, manutenzione. Il modello gira dove decidi tu, sui dati che restano tuoi.

Dove gira il modello è una decisione tua, non del provider.

Stack Private AI a quattro strati dentro perimetro privato, con quattro opzioni di deployment

Stack

Il software, selezionato e integrato per il tuo contesto.

Non un pacchetto unico. Una combinazione mirata di componenti open-source maturi, scelti in base ai dati, ai vincoli e al carico atteso.

Inferenza locale

Runtime ottimizzati per girare LLM su hardware proprio.

  • Ollama
  • vLLM
  • llama.cpp
  • LocalAI

Interfacce conversazionali

UI per interagire con i modelli locali — utenti finali e team.

  • Open WebUI
  • AnythingLLM
  • LM Studio
  • Text Generation WebUI

RAG e knowledge

Retrieval-Augmented Generation per interrogare documentazione, knowledge base, archivi.

  • PrivateGPT
  • AnythingLLM
  • Khoj
  • Continue.dev
  • Danswer / Onyx

Agenti e automazione

Agenti AI che operano su ambienti, flussi e dati controllati.

  • Dify
  • Flowise
  • Langflow
  • n8n

Vector database

Indici semantici per RAG, ricerca, similarity matching.

  • Qdrant
  • Chroma
  • Weaviate
  • Milvus
  • pgvector

Observability

Tracciabilità di prompt, risposte, latency, costi e drift qualitativo.

  • Langfuse
  • Phoenix (Arize)

Infrastruttura

Containerizzazione, orchestrazione, networking privato e gestione del ciclo di vita.

  • Docker / Docker Compose
  • K3s / Kubernetes
  • Tailscale / Headscale
  • Portainer
  • Coolify

Deployment

A casa, in ufficio, sui server aziendali, nel tuo cloud privato.

Il "dove" non è secondario. È una scelta di governance del dato che precede ogni altra decisione architetturale.

On-premise

Workstation, server in ufficio, datacenter aziendale. Hardware tuo, controllo totale del dato, nessun dato lascia mai il perimetro.

Cloud privato europeo

Hetzner, OVH, Scaleway e provider sovrani EU. Dato in Europa, contratto chiaro, costo prevedibile, conformità GDPR e NIS2.

Ibrido

Compute pesante on-premise, servizi accessori in cloud. Il meglio dei due mondi: capex controllato, scalabilità opportunistica.

Edge

Intel NUC, mini-PC, ARM server. Inferenza al margine, per device, branch office, contesti vincolati o offline.

Tre configurazioni di partenza

Da dove cominciare: tre pacchetti, ciascuno con un caso d'uso preciso.

Non sono offerte rigide: sono punti di partenza coerenti, calibrati sui tre scenari più frequenti. Da qui si dimensiona il resto in base ai dati reali, al carico e ai vincoli.

01 · Starter

Private AI Starter

Per team piccoli che vogliono una ChatGPT interna, senza inviare conversazioni a provider esterni.

  • OpenWebUI + Ollama su singolo server o workstation
  • Gestione utenti e ruoli, accesso autenticato
  • Modello locale dimensionato al carico atteso
  • Backup configurazioni e dati utente
  • Hardening minimo: firewall, accesso TLS, segreti separati
  • Documentazione operativa, knowledge transfer

02 · Department

Private RAG Department

Per reparti che vogliono interrogare i propri documenti con risposte tracciabili alle fonti.

  • Stack Starter + AnythingLLM o OpenWebUI con RAG
  • Vector database (Qdrant o equivalente)
  • Ingestion documenti, chunking calibrato al dominio
  • Citazioni alle fonti, niente risposte senza riferimento
  • Permessi a livello di workspace, separazione dei dati
  • Osservabilità: tracing query, latenza, qualità output (Langfuse)

03 · Production

Private AI Production Stack

Per sistemi che entrano nei processi operativi reali: SLA, recovery, manutenzione strutturata.

  • Tutto del Department, ridisegnato per produzione
  • Orchestrazione container (Docker Compose o Kubernetes)
  • Backup periodici, disaster recovery testato
  • Networking dedicato, isolamento di rete, audit log
  • Manutenzione coordinata: runtime, modelli, patch CVE
  • Reporting trimestrale di qualità e throughput

Il dimensionamento esatto (hardware, modello, perimetro) si fa dopo lo scoping iniziale, non prima.

Output

Quello che entra in casa tua è un sistema funzionante, non un kit da montare.

Cosa include

  • Audit hardware: compatibilità GPU, thermal envelope, throughput stimato
  • Sizing del modello rispetto al caso d'uso e al budget
  • Installazione completa dello stack selezionato
  • Hardening sicurezza e isolamento di rete
  • Backup, restore e disaster recovery strategy
  • Monitoraggio e osservabilità configurati
  • Documentazione operativa
  • Knowledge transfer al team interno

Manutenzione opzionale

  • Aggiornamenti coordinati di runtime e modelli
  • Health-check periodici termici e di throughput
  • Patch di sicurezza e gestione CVE
  • Tuning su nuovi casi d'uso
  • Reporting trimestrale di qualità

Perché non installarlo da soli

Installare Ollama è la parte facile. Il resto è ingegneria.

Apri il browser, scarichi il binario, parte. E lì pensi di aver finito. In realtà inizi.

Cosa non è visibile dall'inizio

  • Termica e meccanica delle GPU sotto carico continuativo
  • Conflitti driver CUDA / versioni runtime / kernel
  • Selezione del modello rispetto a finestra di contesto e carico reale
  • Chunking semantico e strategia di retrieval per il RAG
  • Hardening di rete, gestione segreti, audit log
  • Backup degli indici vettoriali e dei dati di addestramento
  • Aggiornamenti e regressioni silenti
  • Osservabilità della qualità degli output, non solo delle metriche di sistema

Cosa porta l'esperienza

  • Validazione hardware preventiva, prima di spendere
  • Stack scelto sui vincoli reali, non sull'hype
  • Configurazione documentata e riproducibile
  • Sicurezza pensata da subito, non aggiunta dopo
  • Operatività verificata sotto carico, non sulla demo
  • Manutenzione prevedibile, non emergenze

Il modello è una variabile. L'ambiente che lo ospita è il resto.

Le sei famiglie di soluzioni

Cosa puoi installare nel tuo stack Private AI.

Sei categorie di software, ciascuna con un compito preciso. Si combinano in stack su misura per il caso d'uso del cliente: chat aziendale + RAG sui documenti, oppure agenti + automazione, o ancora model serving + coding assistant. Per ogni famiglia: cosa fa, perché conviene, quali soluzioni concrete installiamo.

AI Workspace & Chat

A cosa serve

Piattaforme chat AI private che sostituiscono ChatGPT/Copilot a livello aziendale. Il dipendente apre il browser, parla con l'AI, ma la conversazione resta nel perimetro aziendale. RBAC, SSO, audit log, integrazione documenti interni.

Vantaggi business

  • Sostituzione 1:1 di servizi cloud commerciali senza esfiltrazione dati: nessun documento aziendale finisce a OpenAI, Anthropic o Google.
  • Costo prevedibile (capex hw + opex elettrico) invece di per-seat licensing che scala male oltre 50 utenti.
  • Controllo centralizzato: chi accede a quale modello, con quali documenti, tramite RBAC granulare e SSO aziendale.
  • Conformità GDPR e AI Act senza dover negoziare DPA con un data processor esterno.

RAG & Knowledge Assistants

A cosa serve

Sistemi che interrogano in linguaggio naturale la documentazione aziendale: manuali, procedure, contratti, knowledge base, ticket storici. L'AI risponde citando le fonti interne, niente allucinazioni su contenuti pubblici.

Vantaggi business

  • Riduzione del tempo di ricerca documentale da minuti a secondi: il know-how aziendale diventa immediatamente interrogabile.
  • Onboarding accelerato: nuovi assunti accedono al sapere senior senza dover passare per riunioni di trasferimento.
  • Knowledge preservation: il sapere di chi va via resta utilizzabile, indicizzato, citabile.
  • Audit trail: ogni risposta è collegata alle fonti, controllabile dal compliance officer.

Agentic Workflows

A cosa serve

Automazioni AI multi-step che eseguono task in autonomia: orchestrazione di tool esterni, decisioni condizionali, retry su errore, escalation umana. Non un bot che chatta — un sistema che fa il lavoro.

Vantaggi business

  • Automazione di processi che oggi richiedono persone: lead qualification, data enrichment, supporto L1, classificazione email.
  • Composizione visuale: anche figure non tecniche disegnano flussi tramite drag-and-drop, niente codice da manutenere.
  • Scalabilità orizzontale: mille agenti in parallelo, costo marginale prossimo a zero, capacità a richiesta.
  • Tracciabilità completa di ogni step: cosa è stato deciso, da chi (umano o agente), con quali dati a disposizione.

Automation & Integration

A cosa serve

Strato di connessione tra l'AI e i sistemi aziendali esistenti: ERP, CRM, mail, ticket, fogli di calcolo, database. L'AI come tessuto che lega applicazioni che non si parlano.

Vantaggi business

  • Niente integrazioni custom da sviluppare ex novo: 400+ connettori pronti coprono la stragrande maggioranza dei casi.
  • Time-to-value rapido: da idea a flusso operativo in settimane invece di mesi (o anni con software house).
  • Riusabilità: i flussi sono template condivisibili tra reparti, niente sviluppo duplicato per casi simili.
  • Manutenibilità: flussi visuali > codice spaghetti scritto da uno sviluppatore che ora non lavora più qui.

Soluzioni nel catalogo (1)

n8n

Esplora tutte le soluzioni 🔗 →

Model Serving & Local Inference

A cosa serve

Il motore di esecuzione dei modelli AI: GPU/CPU che caricano LLM, embedding model, vision model. La componente invisibile all'utente finale ma critica per controllo del costo, latenza, sovranità.

Vantaggi business

  • Sovranità tecnica: nessun lock-in con provider cloud, libertà di cambiare modello senza migrazione costosa.
  • Costo prevedibile: capex hardware + opex elettrico, invece di per-token billing che scala in modo imprevedibile sul volume.
  • Latenza bassa: il modello gira a metri di distanza dai dati, niente roundtrip transcontinentali a servizi USA.
  • Conformità totale: i dati non lasciano mai il perimetro aziendale, neanche per inference. Auditable, dimostrabile.

AI Coding & Software Engineering

A cosa serve

Coding assistant aziendali — alternativa privata a GitHub Copilot, Cursor, Claude Code. Lavorano su codebase proprietarie senza inviare il codice al cloud. Ideali per software house, fintech, difesa, sanità.

Vantaggi business

  • Produttività sviluppatori: incrementi del 20-40% del tempo speso a scrivere codice, documentati da studi indipendenti.
  • IP protection: il codice proprietario non lascia mai l'infrastruttura. Niente upload accidentali, niente policy da firmare.
  • Personalizzazione: fine-tuning sui pattern e convenzioni del team, suggerimenti calibrati sulla codebase reale.
  • Audit trail per compliance: ogni suggerimento accettato è tracciabile, utile in settori regolati o post-incident review.

Approfondisci

Vuoi capire ogni strumento prima di scegliere?

Ogni componente dello stack ha una pagina dedicata: come funziona, cosa fa per il business, quando ha senso, quanto costa installarlo. Pensata per il decisore, non per il tecnico.

Catalogo soluzioni → Strumenti (panoramica) →

Vuoi un sistema Private AI funzionante, non un esperimento?

La valutazione iniziale chiarisce caso d'uso, dati, vincoli, hardware disponibile o da acquisire, e percorso di delivery.