Strumenti · Motore di inferenza

Ollama

Il "Postgres dei modelli LLM". Un binario, una libreria di modelli, un endpoint API compatibile con OpenAI. Si installa in 5 minuti e si dimentica. Sotto il cofano di quasi ogni installazione Private AI.

Il motore non si vede. Funziona.

Ollama — Motore di inferenza

In 30 secondi

Scarichi un modello con un comando. Lo usi via API.

Ollama è il runtime open source che fa girare i modelli LLM sul tuo hardware. Gestisce automaticamente quantizzazione, allocazione GPU, swap CPU. Espone un endpoint REST identico a quello di OpenAI: qualunque applicazione scritta per ChatGPT funziona puntandola alla tua infrastruttura. Per il decisore è l'investimento più strategico perché tutto il resto dello stack ci si appoggia.

Per il business

I quattro vantaggi che contano

Cinque minuti all'operatività

curl-pipe-bash per installare. ollama pull llama3 per il primo modello. Funziona. Senza tuning, senza configurazione manuale di driver GPU.

Compatibile OpenAI API

Endpoint REST con lo stesso schema di api.openai.com. Cambi base_url nel codice esistente e tutto continua a girare, su hardware tuo.

Libreria modelli ampia

Llama (tutte le taglie), Mistral, Qwen, Gemma, Phi, modelli specializzati per codice e multilingua. Un comando per ognuno.

GPU autodetect, CPU fallback

Riconosce GPU NVIDIA/AMD/Apple Silicon e ottimizza. Se manca, fa fallback CPU senza crash. Nessuna configurazione manuale di CUDA.

Quando ha senso

Casi d'uso reali

  • Backend di OpenWebUI, AnythingLLM, ogni applicazione AI
  • Sviluppo locale di prototipi senza chiamate a servizi esterni
  • Inference in batch per estrazione dati su volumi
  • Sostituzione di OpenAI/Claude API per use case sensibili

Quando NON ha senso

Limiti onesti

  • Non ottimizzato per throughput estremo: per centinaia di req/sec usa vLLM
  • Tooling enterprise (auth, rate limit avanzato) essenziale: per più serve un proxy
  • Modelli non ufficiali vanno verificati per licenza

Installazione

Cinque minuti. Una riga in shell.

Installer ufficiale per Linux, macOS, Windows. Su Linux server: curl-pipe-bash. Su workstation: pacchetto nativo. Dopo l'installazione: ollama pull llama3 scarica il primo modello (~5GB). L'API parte automaticamente su porta 11434.

Vuoi capire se Ollama ha senso per la tua organizzazione?

La valutazione iniziale chiarisce il caso d'uso, l'integrazione con il resto dello stack, l'investimento. Senza presentazioni generiche.