// TOM'S HARDWARE ITALIA — INTELLIGENZA ARTIFICIALE
Meta taglia i costi dei server AI tornando alla DDR4
Meta ha presentato una strategia per riutilizzare grandi quantità di memoria DDR4 nei server dedicati all'intelligenza artificiale, collegandola tramite CXL a sistemi più recenti basati su DDR5. L'obiettivo è aumentare la capacità di memoria disponibile senza acquistare nuova DRAM, in un momento in cui la domanda dei data center continua a comprimere disponibilità, costi e tempi di consegna.
Il progetto nasce da un problema molto concreto: nei carichi AI e cloud, la memoria può diventare un limite tanto quanto la potenza di calcolo. Aggiungere nuovi moduli non è sempre semplice, né economico, soprattutto quando i server sono già stati progettati attorno a determinate configurazioni. Meta descrive questa soluzione come un'espansione della memoria a costo quasi nullo, perché sfrutta moduli già presenti nell'infrastruttura e altrimenti difficili da riutilizzare su larga scala.
La parte hardware ruota attorno a Vistara, un ASIC sviluppato internamente per collegare memoria riciclata con bassa latenza, consumi contenuti e compatibilità con l'approccio CXL. Il punto non è trasformare la vecchia DDR4 in memoria veloce quanto quella locale, ma renderla abbastanza utile da assorbire una parte dei dati meno sensibili alla latenza. In questo modo la DDR5 resta disponibile per le operazioni più critiche, mentre la memoria espansa copre i picchi di capacità.
Meta parte da limiti già noti delle implementazioni CXL commerciali: la memoria espansa può offrire una banda quasi dieci volte inferiore rispetto alla memoria locale e una latenza circa il 60% più alta. Inoltre, molti prodotti sul mercato abbinano controller e DRAM in un unico pacchetto, rendendo poco praticabile il riuso diretto dei moduli DDR4 esistenti. Vistara prova a separare meglio questi elementi, così da trasformare un inventario legacy in una risorsa infrastrutturale.
Il lavoro non si ferma al silicio. Meta ha affiancato all'ASIC uno stack software basato su Transparent Page Placement, capace di decidere automaticamente il rapporto tra memoria locale e memoria espansa per ogni workload. Se un'applicazione non tollera l'aumento di latenza, l'espansione può essere disattivata; se invece il collo di bottiglia principale è la capacità, il sistema può spostare parte delle pagine sulla DDR4 collegata via CXL.
I risultati dichiarati riguardano due scenari: inferenza machine learning disaggregata e cache distribuite. Nel primo caso, Meta indica una riduzione del numero di server fino al 25%, un dato significativo per chi gestisce un data center AI su scala hyperscale. Nel secondo, i sistemi di cache avrebbero registrato una riduzione media della latenza di circa il 29%, nonostante l'uso parziale di memoria riciclata più lenta.
Resta da capire quanto questo modello possa uscire dai confini degli hyperscaler. Meta può progettare ASIC, software e workload insieme, mentre aziende più piccole dipendono da soluzioni standardizzate. Se i compromessi tra banda, latenza e capacità resteranno gestibili, il riuso della DDR4 tramite CXL potrebbe diventare una risposta concreta alla pressione esercitata dall'AI sul mercato della memoria.