Cinque minuti all'operatività
curl-pipe-bash per installare. ollama pull llama3 per il primo modello. Funziona. Senza tuning, senza configurazione manuale di driver GPU.
Strumenti · Motore di inferenza
Il "Postgres dei modelli LLM". Un binario, una libreria di modelli, un endpoint API compatibile con OpenAI. Si installa in 5 minuti e si dimentica. Sotto il cofano di quasi ogni installazione Private AI.
Il motore non si vede. Funziona.
In 30 secondi
Ollama è il runtime open source che fa girare i modelli LLM sul tuo hardware. Gestisce automaticamente quantizzazione, allocazione GPU, swap CPU. Espone un endpoint REST identico a quello di OpenAI: qualunque applicazione scritta per ChatGPT funziona puntandola alla tua infrastruttura. Per il decisore è l'investimento più strategico perché tutto il resto dello stack ci si appoggia.
Per il business
curl-pipe-bash per installare. ollama pull llama3 per il primo modello. Funziona. Senza tuning, senza configurazione manuale di driver GPU.
Endpoint REST con lo stesso schema di api.openai.com. Cambi base_url nel codice esistente e tutto continua a girare, su hardware tuo.
Llama (tutte le taglie), Mistral, Qwen, Gemma, Phi, modelli specializzati per codice e multilingua. Un comando per ognuno.
Riconosce GPU NVIDIA/AMD/Apple Silicon e ottimizza. Se manca, fa fallback CPU senza crash. Nessuna configurazione manuale di CUDA.
Quando ha senso
Quando NON ha senso
Installazione
Installer ufficiale per Linux, macOS, Windows. Su Linux server: curl-pipe-bash. Su workstation: pacchetto nativo. Dopo l'installazione: ollama pull llama3 scarica il primo modello (~5GB). L'API parte automaticamente su porta 11434.
La valutazione iniziale chiarisce il caso d'uso, l'integrazione con il resto dello stack, l'investimento. Senza presentazioni generiche.