// TOM'S HARDWARE ITALIA — INTELLIGENZA ARTIFICIALE
L'efficienza energetica degli agenti AI diventa un problema da architettura software
I flussi agentici consumano troppa energia. Non è un'opinione: è il punto di partenza di una ricerca sviluppata al MIT in collaborazione con Microsoft Azure, presentata a USENIX OSDI 2026. Il problema non è il modello AI in sé, ma il modo in cui i workflow agentici vengono progettati, dispiegati ed eseguiti: senza ottimizzazione sistematica dell'allocazione delle risorse, l'energia sprecata è strutturale, non accidentale.
Gohar Chaudhry, dottorando MIT EECS e primo autore del paper, è diretto nella diagnosi: "I flussi agentici stanno diventando la spina dorsale di ciò che fanno i provider cloud. L'uso di energia è una preoccupazione enorme, dobbiamo essere molto attenti all'efficienza. È molto facile sovra-allocare risorse, sprecando energia e denaro." La risposta che il team propone si chiama Murakkab — un sistema di orchestrazione che ottimizza automaticamente la progettazione e il dispiegamento di flussi agentici in ambiente cloud.
Un flusso agentico tipico in produzione è composto da più componenti: un modello linguistico principale, tool specializzati (ricerca, esecuzione di codice, chiamate API), memoria di contesto, layer di orchestrazione. Ogni componente richiede risorse computazionali — CPU, GPU, memoria — che vengono allocate all'avvio del workflow e rimangono assegnate per tutta la sua durata.
Il problema è la granularità dell'allocazione. Chi progetta un flusso agentico deve scegliere quale modello usare per ogni task, quanta GPU allocare, come bilanciare velocità e costo. Queste decisioni vengono prese una volta, in fase di progettazione, e restano fisse anche quando le condizioni cambiano. Se un modello piccolo potrebbe gestire un certo task ma il sistema ha allocato un modello grande per sicurezza, l'energia in eccesso viene sprecata senza che nessuno lo sappia.
Moltiplicato su milioni di chiamate giornaliere, questo spreco è enorme. Il consumo energetico dei datacenter AI ha già raggiunto livelli che mettono sotto pressione le reti elettriche — e i flussi agentici sono tra le componenti a crescita più rapida. L'attuale stato dell'arte richiede che ogni scelta venga cablata manualmente da un ingegnere esperto: non esiste un meccanismo che ottimizzi l'allocazione in funzione del task specifico e delle condizioni di runtime.
La proposta del paper accademico è un cambio di approccio radicale rispetto alla configurazione manuale. Invece di richiedere al developer di specificare ogni componente del flusso agentico, Murakkab riceve una descrizione in linguaggio naturale del compito desiderato e autonomamente seleziona modelli, strumenti e configurazione hardware ottimale.
Il sistema lavora su due livelli distinti. Il primo è la fase di progettazione: dati i requisiti espressi in linguaggio naturale e le preferenze di ottimizzazione (massimizza velocità, minimizza costo, minimizza energia), Murakkab costruisce il flusso selezionando i componenti più adatti. Il developer descrive cosa vuole ottenere, il sistema decide come ottenerlo nel modo più efficiente.
Il secondo livello è il runtime: Murakkab adatta le allocazioni in tempo reale in base al carico effettivo e alla complessità del task specifico. Se un'attività si rivela più semplice del previsto, il sistema riduce le risorse allocate. Se un passaggio richiede più potenza, la aumenta. Questa elasticità elimina lo spreco strutturale che deriva da configurazioni statiche dimensionate per il caso peggiore.
La novità tecnica più rilevante riguarda la visibilità che Murakkab offre al provider cloud: il sistema condivide le risorse tra più carichi di lavoro simultanei, eliminando i silos di allocazione che oggi impediscono la condivisione. Un server che esegue dieci flussi agentici separati può, con Murakkab, gestire la stessa quantità di lavoro con molte meno risorse — perché i picchi di consumo di un flusso raramente coincidono con i picchi degli altri.
I risultati sperimentali riportati da MIT News sono netti. Murakkab richiede solo il 35% della computazione