Inferenza locale
Runtime ottimizzati per girare LLM su hardware proprio.
- Ollama
- vLLM
- llama.cpp
- LocalAI
Installazioni Private AI
Inferenza locale, RAG, agenti, vector database, osservabilità. Selezione del software, sizing dell'hardware, installazione, hardening, manutenzione. Il modello gira dove decidi tu, sui dati che restano tuoi.
Dove gira il modello è una decisione tua, non del provider.
Stack
Non un pacchetto unico. Una combinazione mirata di componenti open-source maturi, scelti in base ai dati, ai vincoli e al carico atteso.
Runtime ottimizzati per girare LLM su hardware proprio.
UI per interagire con i modelli locali — utenti finali e team.
Retrieval-Augmented Generation per interrogare documentazione, knowledge base, archivi.
Agenti AI che operano su ambienti, flussi e dati controllati.
Indici semantici per RAG, ricerca, similarity matching.
Tracciabilità di prompt, risposte, latency, costi e drift qualitativo.
Containerizzazione, orchestrazione, networking privato e gestione del ciclo di vita.
Deployment
Il "dove" non è secondario. È una scelta di governance del dato che precede ogni altra decisione architetturale.
Workstation, server in ufficio, datacenter aziendale. Hardware tuo, controllo totale del dato, nessun dato lascia mai il perimetro.
Hetzner, OVH, Scaleway e provider sovrani EU. Dato in Europa, contratto chiaro, costo prevedibile, conformità GDPR e NIS2.
Compute pesante on-premise, servizi accessori in cloud. Il meglio dei due mondi: capex controllato, scalabilità opportunistica.
Intel NUC, mini-PC, ARM server. Inferenza al margine, per device, branch office, contesti vincolati o offline.
Output
Perché non installarlo da soli
Apri il browser, scarichi il binario, parte. E lì pensi di aver finito. In realtà inizi.
Il modello è una variabile. L'ambiente che lo ospita è il resto.
La valutazione iniziale chiarisce caso d'uso, dati, vincoli, hardware disponibile o da acquisire, e percorso di delivery.