// TOM'S HARDWARE ITALIA — HARDWARE & GADGET
Niente Rubin Ultra: fabbricare chip è difficile, anche se ti chiami NVIDIA
Quando si parla di intelligenza artificiale l'attenzione cade quasi sempre sui numeri: teraflops, capacità di memoria, prestazioni nei benchmark. La cancellazione di NVIDIA Rubin Ultra (emersa in alcune notizie recenti) sposta però l'attenzione su un aspetto molto meno discusso: la capacità industriale di trasformare un progetto ambizioso in realtà, in un prodotto fabbricabile in volumi. Il presunto abbandono del design a quattro die in favore di una configurazione dual-GPU non è una battuta d'arresto architetturale, ma il segnale che il collo di bottiglia dell'accelerazione AI si è spostato dai transistor al packaging, alle rese e alla supply chain.
Il Rubin Ultra presentato come punta di diamante della roadmap prevedeva quattro chiplet GPU vicini al limite di reticolo e sedici stack di memoria HBM4E in un unico package, per circa un terabyte di memoria complessiva. Secondo diverse fonti interne, questo design sarebbe stato cancellato in favore di una versione con due compute chiplet e otto stack HBM4E. La motivazione indicata è sintetizzata nell'espressione "manufacturing execution concerns", riportata da tutte queste fonti: preoccupazioni sulla concreta possibilità di portare il progetto in produzione di massa con rese accettabili.
Le conseguenze sulle prestazioni non sono banali. Il nuovo Rubin Ultra avrebbe circa metà della potenza di calcolo per package rispetto all'originale, anche se alcune analisi suggeriscono che configurazioni a livello di scheda, del tipo due package con due die ciascuno, potrebbero mantenere prestazioni aggregate simili a livello di server. C'è da dire che NVIDIA non ha pubblicato specifiche aggiornate né confermato ufficialmente la cancellazione del quad-die, ma le voci circolate sono molte e tutte concordi, motivo per cui possono essere ritenute fondate, anche se da non prendere come oro colato.
Il progetto quad-die richiedeva di assemblare oltre 3.400 mm² di silicio attivo in un unico package, una scala senza precedenti per un acceleratore AI commerciale. Passare da due a quattro grandi chiplet non raddoppia semplicemente la complessità: moltiplica il numero di interconnessioni, la difficoltà dei test e la probabilità di difetti in ogni fase del packaging. Ogni chiplet aggiuntivo introduce nuovi punti di possibile fallimento che devono essere verificati prima della spedizione, aumentando il carico su test elettrici e burn-in.
Sulle linee di produzione emergono anche problemi fisici: su package così grandi, stress termici e meccanici provocano il cosiddetto "warpage" del substrato, ovvero una deformazione che può causare perdita di contatto elettrico tra die e interposer. Quando il package si piega, i die rischiano di staccarsi parzialmente dal substrato, generando corti, circuiti aperti e instabilità che abbattono le rese e fanno salire il costo per ogni chip effettivamente funzionante.
Il Rubin Ultra quad-die si basava sul packaging avanzato CoWoS-L di TSMC, lo stesso ecosistema su cui NVIDIA ha costruito la propria strategia multi-chiplet per le GPU da data center. Diverse analisi indicano che questa tecnologia avrebbe raggiunto un vero e proprio "tetto fisico" alla scala di quattro grandi die: oltre quella soglia di complessità, warpage e failure elettrici rendono la produzione ad alta resa non praticabile.
Per aggirare il limite, il Rubin Ultra rivisto torna a due die per package, mantenendo la memoria HBM4E ma riducendo area e complessità in modo compatibile con ciò che le linee di packaging riescono a gestire con rese sostenibili. Il successore di CoWoS-L, indicato come CoPoS, non è atteso in produzione di massa prima della fine del 2028. Questo lascia per alcuni anni un divario tra l'ambizione dei design e le capacità del packaging effettivamente disponibile, che condiziona in modo diretto la roadmap.
Una resa più bassa su package quad-die si traduce in costi unitari che esplodono: una quota maggiore di package viene scartata e il costo del silicio e del packaging si spalma su un