Inferenza locale
Runtime ottimizzati per girare LLM su hardware proprio.
- Ollama
- vLLM
- llama.cpp
- LocalAI
Installazioni Private AI
Inferenza locale, RAG, agenti, vector database, osservabilità. Selezione del software, sizing dell'hardware, installazione, hardening, manutenzione. Il modello gira dove decidi tu, sui dati che restano tuoi.
Dove gira il modello è una decisione tua, non del provider.
Stack
Non un pacchetto unico. Una combinazione mirata di componenti open-source maturi, scelti in base ai dati, ai vincoli e al carico atteso.
Runtime ottimizzati per girare LLM su hardware proprio.
UI per interagire con i modelli locali — utenti finali e team.
Retrieval-Augmented Generation per interrogare documentazione, knowledge base, archivi.
Agenti AI che operano su ambienti, flussi e dati controllati.
Indici semantici per RAG, ricerca, similarity matching.
Tracciabilità di prompt, risposte, latency, costi e drift qualitativo.
Containerizzazione, orchestrazione, networking privato e gestione del ciclo di vita.
Deployment
Il "dove" non è secondario. È una scelta di governance del dato che precede ogni altra decisione architetturale.
Workstation, server in ufficio, datacenter aziendale. Hardware tuo, controllo totale del dato, nessun dato lascia mai il perimetro.
Hetzner, OVH, Scaleway e provider sovrani EU. Dato in Europa, contratto chiaro, costo prevedibile, conformità GDPR e NIS2.
Compute pesante on-premise, servizi accessori in cloud. Il meglio dei due mondi: capex controllato, scalabilità opportunistica.
Intel NUC, mini-PC, ARM server. Inferenza al margine, per device, branch office, contesti vincolati o offline.
Tre configurazioni di partenza
Non sono offerte rigide: sono punti di partenza coerenti, calibrati sui tre scenari più frequenti. Da qui si dimensiona il resto in base ai dati reali, al carico e ai vincoli.
01 · Starter
Per team piccoli che vogliono una ChatGPT interna, senza inviare conversazioni a provider esterni.
02 · Department
Per reparti che vogliono interrogare i propri documenti con risposte tracciabili alle fonti.
03 · Production
Per sistemi che entrano nei processi operativi reali: SLA, recovery, manutenzione strutturata.
Il dimensionamento esatto (hardware, modello, perimetro) si fa dopo lo scoping iniziale, non prima.
Output
Perché non installarlo da soli
Apri il browser, scarichi il binario, parte. E lì pensi di aver finito. In realtà inizi.
Il modello è una variabile. L'ambiente che lo ospita è il resto.
Le sei famiglie di soluzioni
Sei categorie di software, ciascuna con un compito preciso. Si combinano in stack su misura per il caso d'uso del cliente: chat aziendale + RAG sui documenti, oppure agenti + automazione, o ancora model serving + coding assistant. Per ogni famiglia: cosa fa, perché conviene, quali soluzioni concrete installiamo.
Piattaforme chat AI private che sostituiscono ChatGPT/Copilot a livello aziendale. Il dipendente apre il browser, parla con l'AI, ma la conversazione resta nel perimetro aziendale. RBAC, SSO, audit log, integrazione documenti interni.
Sistemi che interrogano in linguaggio naturale la documentazione aziendale: manuali, procedure, contratti, knowledge base, ticket storici. L'AI risponde citando le fonti interne, niente allucinazioni su contenuti pubblici.
Automazioni AI multi-step che eseguono task in autonomia: orchestrazione di tool esterni, decisioni condizionali, retry su errore, escalation umana. Non un bot che chatta — un sistema che fa il lavoro.
Strato di connessione tra l'AI e i sistemi aziendali esistenti: ERP, CRM, mail, ticket, fogli di calcolo, database. L'AI come tessuto che lega applicazioni che non si parlano.
Il motore di esecuzione dei modelli AI: GPU/CPU che caricano LLM, embedding model, vision model. La componente invisibile all'utente finale ma critica per controllo del costo, latenza, sovranità.
Coding assistant aziendali — alternativa privata a GitHub Copilot, Cursor, Claude Code. Lavorano su codebase proprietarie senza inviare il codice al cloud. Ideali per software house, fintech, difesa, sanità.
Approfondisci
Ogni componente dello stack ha una pagina dedicata: come funziona, cosa fa per il business, quando ha senso, quanto costa installarlo. Pensata per il decisore, non per il tecnico.
La valutazione iniziale chiarisce caso d'uso, dati, vincoli, hardware disponibile o da acquisire, e percorso di delivery.