Quando i tuoi dati non lasciano mai la tua macchina, non è una preferenza — è un confine architetturale. In alcuni contesti è l'unica opzione che ha senso.
Quando giri modelli localmente, inizi a vedere cose che dall'esterno non vedi. Quando chiami un'API cloud, ottieni una risposta. Quando giri lo stesso modello sul tuo hardware, ottieni comportamento.
Modelli diversi, stesso prompt — risposte diverse. Stesso modello, GPU diversa — throughput diverso. Stesso stack, CUDA diversa — stabilità diversa. Stessa macchina, carico più alto — tutto diverso.
All'inizio sembra rumore. Poi inizi a vedere pattern: come l'inferenza degrada sotto memory pressure, come i driver influenzano la consistenza degli output, come scheduling e runtime si propagano nella pipeline.
Niente di questo è visibile da una chiamata API. Si vede solo quando possiedi lo stack completo.
Installare Ollama o Open WebUI è la parte facile. Il lavoro vero è dopo: allineare l'intero stack, risolvere conflitti silenti tra CUDA, driver GPU e runtime di inferenza.
Non lo impari dai tutorial. Lo impari facendo girare sistemi, rompendoli, e guardando cosa succede.
A un certo punto la domanda cambia. Smetti di chiedere "quale modello è migliore?" Inizi a chiedere "come si comporta questo sistema sotto condizioni reali — e cosa posso controllare?"
Cloud ti dà accesso ai modelli. Self-hosting ti dà accesso al sistema attorno ai modelli. Il modello è solo una variabile. L'ambiente è il resto.