Installazioni Private AI — Engineered AI Systems

Stack

Il software, selezionato e integrato per il tuo contesto.

Non un pacchetto unico. Una combinazione mirata di componenti open-source maturi, scelti in base ai dati, ai vincoli e al carico atteso.

Inferenza locale

Runtime ottimizzati per girare LLM su hardware proprio.

Ollama
vLLM
llama.cpp
LocalAI

Interfacce conversazionali

UI per interagire con i modelli locali — utenti finali e team.

Open WebUI
AnythingLLM
LM Studio
Text Generation WebUI

RAG e knowledge

Retrieval-Augmented Generation per interrogare documentazione, knowledge base, archivi.

PrivateGPT
AnythingLLM
Khoj
Continue.dev
Danswer / Onyx

Agenti e automazione

Agenti AI che operano su ambienti, flussi e dati controllati.

Dify
Flowise
Langflow
n8n

Vector database

Indici semantici per RAG, ricerca, similarity matching.

Qdrant
Chroma
Weaviate
Milvus
pgvector

Observability

Tracciabilità di prompt, risposte, latency, costi e drift qualitativo.

Langfuse
Phoenix (Arize)

Infrastruttura

Containerizzazione, orchestrazione, networking privato e gestione del ciclo di vita.

Docker / Docker Compose
K3s / Kubernetes
Tailscale / Headscale
Portainer
Coolify

Deployment

A casa, in ufficio, sui server aziendali, nel tuo cloud privato.

Il "dove" non è secondario. È una scelta di governance del dato che precede ogni altra decisione architetturale.

On-premise

Workstation, server in ufficio, datacenter aziendale. Hardware tuo, controllo totale del dato, nessun dato lascia mai il perimetro.

Cloud privato europeo

Hetzner, OVH, Scaleway e provider sovrani EU. Dato in Europa, contratto chiaro, costo prevedibile, conformità GDPR e NIS2.

Ibrido

Compute pesante on-premise, servizi accessori in cloud. Il meglio dei due mondi: capex controllato, scalabilità opportunistica.

Edge

Intel NUC, mini-PC, ARM server. Inferenza al margine, per device, branch office, contesti vincolati o offline.

Tre configurazioni di partenza

Da dove cominciare: tre pacchetti, ciascuno con un caso d'uso preciso.

Non sono offerte rigide: sono punti di partenza coerenti, calibrati sui tre scenari più frequenti. Da qui si dimensiona il resto in base ai dati reali, al carico e ai vincoli.

01 · Starter

Private AI Starter

Per team piccoli che vogliono una ChatGPT interna, senza inviare conversazioni a provider esterni.

OpenWebUI + Ollama su singolo server o workstation
Gestione utenti e ruoli, accesso autenticato
Modello locale dimensionato al carico atteso
Backup configurazioni e dati utente
Hardening minimo: firewall, accesso TLS, segreti separati
Documentazione operativa, knowledge transfer

02 · Department

Private RAG Department

Per reparti che vogliono interrogare i propri documenti con risposte tracciabili alle fonti.

Stack Starter + AnythingLLM o OpenWebUI con RAG
Vector database (Qdrant o equivalente)
Ingestion documenti, chunking calibrato al dominio
Citazioni alle fonti, niente risposte senza riferimento
Permessi a livello di workspace, separazione dei dati
Osservabilità: tracing query, latenza, qualità output (Langfuse)

03 · Production

Private AI Production Stack

Per sistemi che entrano nei processi operativi reali: SLA, recovery, manutenzione strutturata.

Tutto del Department, ridisegnato per produzione
Orchestrazione container (Docker Compose o Kubernetes)
Backup periodici, disaster recovery testato
Networking dedicato, isolamento di rete, audit log
Manutenzione coordinata: runtime, modelli, patch CVE
Reporting trimestrale di qualità e throughput

Il dimensionamento esatto (hardware, modello, perimetro) si fa dopo lo scoping iniziale, non prima.

Output

Quello che entra in casa tua è un sistema funzionante, non un kit da montare.

Cosa include

Audit hardware: compatibilità GPU, thermal envelope, throughput stimato
Sizing del modello rispetto al caso d'uso e al budget
Installazione completa dello stack selezionato
Hardening sicurezza e isolamento di rete
Backup, restore e disaster recovery strategy
Monitoraggio e osservabilità configurati
Documentazione operativa
Knowledge transfer al team interno

Manutenzione opzionale

Aggiornamenti coordinati di runtime e modelli
Health-check periodici termici e di throughput
Patch di sicurezza e gestione CVE
Tuning su nuovi casi d'uso
Reporting trimestrale di qualità

Perché non installarlo da soli

Installare Ollama è la parte facile. Il resto è ingegneria.

Apri il browser, scarichi il binario, parte. E lì pensi di aver finito. In realtà inizi.

Cosa non è visibile dall'inizio

Termica e meccanica delle GPU sotto carico continuativo
Conflitti driver CUDA / versioni runtime / kernel
Selezione del modello rispetto a finestra di contesto e carico reale
Chunking semantico e strategia di retrieval per il RAG
Hardening di rete, gestione segreti, audit log
Backup degli indici vettoriali e dei dati di addestramento
Aggiornamenti e regressioni silenti
Osservabilità della qualità degli output, non solo delle metriche di sistema

Cosa porta l'esperienza

Validazione hardware preventiva, prima di spendere
Stack scelto sui vincoli reali, non sull'hype
Configurazione documentata e riproducibile
Sicurezza pensata da subito, non aggiunta dopo
Operatività verificata sotto carico, non sulla demo
Manutenzione prevedibile, non emergenze

Il modello è una variabile. L'ambiente che lo ospita è il resto.

Le sei famiglie di soluzioni

Cosa puoi installare nel tuo stack Private AI.

Sei categorie di software, ciascuna con un compito preciso. Si combinano in stack su misura per il caso d'uso del cliente: chat aziendale + RAG sui documenti, oppure agenti + automazione, o ancora model serving + coding assistant. Per ogni famiglia: cosa fa, perché conviene, quali soluzioni concrete installiamo.

AI Workspace & Chat

A cosa serve

Piattaforme chat AI private che sostituiscono ChatGPT/Copilot a livello aziendale. Il dipendente apre il browser, parla con l'AI, ma la conversazione resta nel perimetro aziendale. RBAC, SSO, audit log, integrazione documenti interni.

Vantaggi business

Sostituzione 1:1 di servizi cloud commerciali senza esfiltrazione dati: nessun documento aziendale finisce a OpenAI, Anthropic o Google.
Costo prevedibile (capex hw + opex elettrico) invece di per-seat licensing che scala male oltre 50 utenti.
Controllo centralizzato: chi accede a quale modello, con quali documenti, tramite RBAC granulare e SSO aziendale.
Conformità GDPR e AI Act senza dover negoziare DPA con un data processor esterno.

Soluzioni nel catalogo (3)

Open WebUI LibreChat Lobe Chat

Esplora tutte le soluzioni 💬 →

RAG & Knowledge Assistants

A cosa serve

Sistemi che interrogano in linguaggio naturale la documentazione aziendale: manuali, procedure, contratti, knowledge base, ticket storici. L'AI risponde citando le fonti interne, niente allucinazioni su contenuti pubblici.

Vantaggi business

Riduzione del tempo di ricerca documentale da minuti a secondi: il know-how aziendale diventa immediatamente interrogabile.
Onboarding accelerato: nuovi assunti accedono al sapere senior senza dover passare per riunioni di trasferimento.
Knowledge preservation: il sapere di chi va via resta utilizzabile, indicizzato, citabile.
Audit trail: ogni risposta è collegata alle fonti, controllabile dal compliance officer.

Soluzioni nel catalogo (6)

Perplexica AnythingLLM RAGFlow Khoj DocsGPT PrivateGPT

Esplora tutte le soluzioni 📚 →

Agentic Workflows

A cosa serve

Automazioni AI multi-step che eseguono task in autonomia: orchestrazione di tool esterni, decisioni condizionali, retry su errore, escalation umana. Non un bot che chatta — un sistema che fa il lavoro.

Vantaggi business

Automazione di processi che oggi richiedono persone: lead qualification, data enrichment, supporto L1, classificazione email.
Composizione visuale: anche figure non tecniche disegnano flussi tramite drag-and-drop, niente codice da manutenere.
Scalabilità orizzontale: mille agenti in parallelo, costo marginale prossimo a zero, capacità a richiesta.
Tracciabilità completa di ogni step: cosa è stato deciso, da chi (umano o agente), con quali dati a disposizione.

Soluzioni nel catalogo (8)

Dify Flowise LangFlow AutoGen CrewAI LangGraph Smolagents PydanticAI

Esplora tutte le soluzioni 🤖 →

Automation & Integration

A cosa serve

Strato di connessione tra l'AI e i sistemi aziendali esistenti: ERP, CRM, mail, ticket, fogli di calcolo, database. L'AI come tessuto che lega applicazioni che non si parlano.

Vantaggi business

Niente integrazioni custom da sviluppare ex novo: 400+ connettori pronti coprono la stragrande maggioranza dei casi.
Time-to-value rapido: da idea a flusso operativo in settimane invece di mesi (o anni con software house).
Riusabilità: i flussi sono template condivisibili tra reparti, niente sviluppo duplicato per casi simili.
Manutenibilità: flussi visuali > codice spaghetti scritto da uno sviluppatore che ora non lavora più qui.

Soluzioni nel catalogo (1)

n8n

Esplora tutte le soluzioni 🔗 →

Model Serving & Local Inference

A cosa serve

Il motore di esecuzione dei modelli AI: GPU/CPU che caricano LLM, embedding model, vision model. La componente invisibile all'utente finale ma critica per controllo del costo, latenza, sovranità.

Vantaggi business

Sovranità tecnica: nessun lock-in con provider cloud, libertà di cambiare modello senza migrazione costosa.
Costo prevedibile: capex hardware + opex elettrico, invece di per-token billing che scala in modo imprevedibile sul volume.
Latenza bassa: il modello gira a metri di distanza dai dati, niente roundtrip transcontinentali a servizi USA.
Conformità totale: i dati non lasciano mai il perimetro aziendale, neanche per inference. Auditable, dimostrabile.

Soluzioni nel catalogo (7)

Jan Ollama llama.cpp vLLM Text Generation Inference LocalAI LM Studio

Esplora tutte le soluzioni ⚙️ →

AI Coding & Software Engineering

A cosa serve

Coding assistant aziendali — alternativa privata a GitHub Copilot, Cursor, Claude Code. Lavorano su codebase proprietarie senza inviare il codice al cloud. Ideali per software house, fintech, difesa, sanità.

Vantaggi business

Produttività sviluppatori: incrementi del 20-40% del tempo speso a scrivere codice, documentati da studi indipendenti.
IP protection: il codice proprietario non lascia mai l'infrastruttura. Niente upload accidentali, niente policy da firmare.
Personalizzazione: fine-tuning sui pattern e convenzioni del team, suggerimenti calibrati sulla codebase reale.
Audit trail per compliance: ogni suggerimento accettato è tracciabile, utile in settori regolati o post-incident review.

Soluzioni nel catalogo (4)

Tabby Continue OpenHands Aider

Esplora tutte le soluzioni 👨‍💻 →

Approfondisci

Vuoi capire ogni strumento prima di scegliere?

Ogni componente dello stack ha una pagina dedicata: come funziona, cosa fa per il business, quando ha senso, quanto costa installarlo. Pensata per il decisore, non per il tecnico.

Catalogo soluzioni → Strumenti (panoramica) →

Configuro il tuo stack AI privato. A casa, in azienda o nel tuo cloud.

Il software, selezionato e integrato per il tuo contesto.

Inferenza locale

Interfacce conversazionali

RAG e knowledge

Agenti e automazione

Vector database

Observability

Infrastruttura

A casa, in ufficio, sui server aziendali, nel tuo cloud privato.

On-premise

Cloud privato europeo

Ibrido

Edge

Da dove cominciare: tre pacchetti, ciascuno con un caso d'uso preciso.

Private AI Starter

Private RAG Department

Private AI Production Stack

Quello che entra in casa tua è un sistema funzionante, non un kit da montare.

Cosa include

Manutenzione opzionale

Installare Ollama è la parte facile. Il resto è ingegneria.

Cosa non è visibile dall'inizio

Cosa porta l'esperienza

Cosa puoi installare nel tuo stack Private AI.

AI Workspace & Chat

A cosa serve

Vantaggi business

Soluzioni nel catalogo (3)

RAG & Knowledge Assistants

A cosa serve

Vantaggi business

Soluzioni nel catalogo (6)

Agentic Workflows

A cosa serve

Vantaggi business

Soluzioni nel catalogo (8)

Automation & Integration

A cosa serve

Vantaggi business

Soluzioni nel catalogo (1)

Model Serving & Local Inference

A cosa serve

Vantaggi business

Soluzioni nel catalogo (7)

AI Coding & Software Engineering

A cosa serve

Vantaggi business

Soluzioni nel catalogo (4)

Vuoi capire ogni strumento prima di scegliere?

Vuoi un sistema Private AI funzionante, non un esperimento?