Tutti dicono che il self-hosting dell'IA è per risparmiare. Non è così. — Lab

Quando i tuoi dati non lasciano mai la tua macchina, non è una preferenza — è un confine architetturale. In alcuni contesti è l'unica opzione che ha senso.

Quando giri modelli localmente, inizi a vedere cose che dall'esterno non vedi. Quando chiami un'API cloud, ottieni una risposta. Quando giri lo stesso modello sul tuo hardware, ottieni comportamento.

Modelli diversi, stesso prompt — risposte diverse. Stesso modello, GPU diversa — throughput diverso. Stesso stack, CUDA diversa — stabilità diversa. Stessa macchina, carico più alto — tutto diverso.

All'inizio sembra rumore. Poi inizi a vedere pattern: come l'inferenza degrada sotto memory pressure, come i driver influenzano la consistenza degli output, come scheduling e runtime si propagano nella pipeline.

Niente di questo è visibile da una chiamata API. Si vede solo quando possiedi lo stack completo.

Installare Ollama o Open WebUI è la parte facile. Il lavoro vero è dopo: allineare l'intero stack, risolvere conflitti silenti tra CUDA, driver GPU e runtime di inferenza.

Non lo impari dai tutorial. Lo impari facendo girare sistemi, rompendoli, e guardando cosa succede.

A un certo punto la domanda cambia. Smetti di chiedere "quale modello è migliore?" Inizi a chiedere "come si comporta questo sistema sotto condizioni reali — e cosa posso controllare?"

Cloud ti dà accesso ai modelli. Self-hosting ti dà accesso al sistema attorno ai modelli. Il modello è solo una variabile. L'ambiente è il resto.