Faccio inferenza locale su NVIDIA K80 nel mio homelab. Ogni scheda ha due GPU GK210, 300 watt di TDP. Niente chassis server. Niente airflow datacenter. Solo una workstation, e le leggi della termodinamica che lavorano contro di te.
La K80 è una scheda passiva — niente ventola onboard. Era progettata per server rack con airflow forzato front-to-back. Toglila da quell'ambiente, e devi risolvere il cooling tu. E cooling significa ventole. Ventole significano rumore e vibrazione. La vibrazione, se non controllata, significa stress meccanico che fa rompere il silicio in 6-12 mesi.
Ho costruito una soluzione di cooling e l'ho registrata sotto carico. Per misurare la vibrazione ho appoggiato della schiuma sulla scheda come indicatore visivo. Devi confrontare frame per frame per accorgerti che si muove.
Poi ho scalato. Stress test di 12 ore su 4 schede K80 — 8 GPU totali, tutte al 100% di utilizzo. Oltre 1.100 watt di dissipazione termica sostenuta.
Risultato: temperature tra 35°C e 52°C su tutte le 8 GPU. Stabili. Piatte. Per 12 ore di fila.
35°C sotto pieno carico su una GPU passiva in un homelab. Ci sono schede da gaming con cooling attivo che vanno più calde.
Una K80 costa circa €80. Una H100 costa circa €40.000. La fisica della vibrazione e dello stress termico è la stessa su entrambe. Ma il costo di sbagliare non lo è.
Ecco perché sperimento sulle K80. Non perché siano la migliore scheda di inferenza. Ma perché sono il modo più economico per validare che una soluzione di cooling e mounting funzioni davvero sotto carico termico reale sostenuto — prima di scalare a hardware dove un guasto non è un danno da €80.
Self-hosting IA su hardware reale non è solo un problema software. È un problema termico, acustico e meccanico.
La disciplina ingegneristica è: validate cheap, deploy expensive.