// TOM'S HARDWARE ITALIA — INTELLIGENZA ARTIFICIALE

C'è un collo di bottiglia che frena gli LLM, e forse è stato sbloccato

Published: 06/20/2026, 09:32 AM

Subquadratic, una startup di Miami, afferma di aver costruito un modello linguistico che aggira uno dei limiti strutturali dei transformer moderni: la crescita quadratica del costo computazionale con la lunghezza del contesto. Il modello si chiama SubQ, usa un meccanismo di sparse attention dinamica e nei benchmark pubblicati costa 8 dollari per un'operazione che con Anthropic Opus ne costa 2.600. Se i numeri reggono fuori dal laboratorio, siamo davanti a qualcosa che ridisegna l'economia dell'inferenza AI. Il problema che SubQ dice di aver risolto non è nuovo, ma è concreto. Nei transformer standard, ogni token deve calcolare la propria relazione con tutti gli altri token del contesto. Con 10.000 parole, si arriva a circa 50 milioni di moltiplicazioni. La complessità cresce quadraticamente: raddoppiare il contesto non raddoppia il costo, lo quadruplica. È la ragione per cui i contesti lunghi — contratti, codici sorgente, documentazione tecnica — rimangono proibitivi per la maggior parte degli use case enterprise, non per limiti tecnici astratti ma per ragioni economiche molto concrete. Come si spiega in modo approfondito analizzando il reale valore dell'inferenza AI, il costo per token è il vero discriminante nell'adozione industriale dei modelli. L'architettura transformer, introdotta nel 2017, ha dominato il decennio successivo proprio perché il meccanismo di self-attention permette a ogni token di "vedere" l'intero contesto. Il prezzo di questa potenza espressiva è la quadraticità: all'aumentare della lunghezza dell'input, il costo esplode in modo non lineare. Soluzioni parziali come FlashAttention hanno ottimizzato l'implementazione hardware senza cambiare la natura del problema. SubQ prova una strada diversa: invece di calcolare l'attenzione su tutti i token, seleziona on-the-fly quelli rilevanti per ciascuna query. L'idea — che in letteratura si chiama sparse attention — non è originale in sé. Quello che Subquadratic sostiene di aver fatto è implementarla in modo dinamico e scalabile fino a contesti da 12 milioni di token, mantenendo un'accuratezza misurabile. Il tutto partendo da pesi preaddestrati di Qwen, il modello open-source sviluppato da Alibaba: non un addestramento da zero, ma un adattamento architetturale su una base esistente. Riutilizzare pesi da un modello altrui non è una scorciatoia secondaria: ridimensiona la portata dell'affermazione tecnica. Subquadratic non ha dimostrato che la sparse attention dinamica funziona partendo da zero; ha dimostrato che funziona su una base già ottimizzata da Alibaba con risorse di calcolo che nessuna startup può replicare. Il problema del consumo token nei modelli di grandi dimensioni è esattamente quello analizzato qui in relazione al modello 8x8 di Wired: scalare bene è difficile, e le ottimizzazioni parziali spesso mascherano dipendenze non dichiarate. I numeri pubblicati sono il centro di gravità della storia. Nel test condotto da Appen, azienda specializzata in valutazione di modelli AI, SubQ risulta 56 volte più veloce dei modelli con FlashAttention. Su LiveCodeBench ottiene 89,7%, in linea con i migliori modelli di coding disponibili. Il test needle-in-a-haystack — che misura la capacità di trovare informazioni specifiche in contesti enormi — raggiunge il 98% sia su 6 milioni sia su 12 milioni di token. E il confronto di costo su RULER 128, il benchmark per contesti lunghi, è quello che apre gli occhi: Anthropic Opus costa 2.600 dollari, SubQ 8 dollari. Jeanine Sinanan-Singh, responsabile di Appen per la valutazione, ha definito il modello "could be a game changer". È una valutazione misurata, non entusiasta: il condizionale è parte del giudizio, non una cautela formale. Dall'altra parte, Will Depue, ex OpenAI e ora ricercatore indipendente, ha dichiarato che "the public evidence does not yet justify the stronger claim". La critica non nega i numeri: li contestualizza. I benchmark di Subquadratic sono stati condotti o supervisionati dalla stessa azienda o da