// TOM'S HARDWARE ITALIA — INTELLIGENZA ARTIFICIALE

Un database ci salverà dai costi folli dell'IA?

Published: 06/26/2026, 02:19 PM

Il costo dell'AI in produzione ha smesso di essere un problema teorico per diventare una priorità operativa. Pinecone e Tiger Data, due startup specializzate nell'ottimizzazione dell'infrastruttura per agenti AI, hanno presentato nei mesi scorsi soluzioni che promettono riduzioni drastiche dei token consumati — e dei costi associati. La domanda che le loro proposte sollevano non è tecnica ma strategica: stai acquistando una soluzione a un problema reale o stai pagando per qualcosa che il tuo fornitore di dati attuale sta già integrando? Il contesto in cui queste proposte arrivano è quello di un mercato in cui il 79% delle organizzazioni sta investendo in AI agentica, secondo IDC. Gartner prevede che entro la fine del 2026 il 40% delle applicazioni enterprise avrà almeno un agente AI integrato. Ma lo stesso Gartner avverte che il 40% dei progetti agentici verrà cancellato entro il 2027 per costi fuori controllo. Il gap tra il 79% che investe e il 40% che cancella i progetti è la misura del problema che Pinecone e Tiger Data stanno cercando di risolvere. Resta da vedere se lo stanno risolvendo o se si stanno inserendo in uno spazio già occupato. Pinecone è nota principalmente come fornitore di vector database — la tecnologia che permette la ricerca semantica nei sistemi RAG. Nexus è il suo passo successivo: un "knowledge engine" che pre-compila il contesto rilevante per l'agente invece di lasciarlo costruire il contesto a ogni query. Il problema che Nexus affronta è reale. In un sistema RAG standard, ogni query dell'agente attiva un processo di retrieval che cerca nei vector store i frammenti di testo più rilevanti, li assembla in un contesto, lo passa all'LLM insieme alla query, e riceve una risposta. Questo processo consuma token per il contesto passato al modello — e se il contesto è ridondante, mal selezionato o più ampio del necessario, i token vengono sprecati senza contribuire alla qualità della risposta. Pinecone dichiara una riduzione dal 150.000 token a 2.000 token per chiamata su alcuni workflow standard — una riduzione del 98,7% del contesto passato all'LLM. Questo si traduce in una riduzione proporzionale dei costi, perché i modelli linguistici principali (OpenAI, Anthropic, Google) addebitano per token di input e output. Se il dato è verificabile nella pratica — non solo su benchmark costruiti ad hoc — è un'ottimizzazione economicamente rilevante. Tiger Data affronta il problema da un'angolazione diversa. Ghost è un'istanza PostgreSQL usa-e-getta, creata su misura per ogni agente e per ogni sessione di lavoro — e distrutta alla fine della sessione. Il modello di pricing è a ore di compute: l'agente paga solo per il tempo in cui la propria istanza database è attiva. Il problema che Ghost risolve è quello dell'isolamento: quando più agenti accedono allo stesso database condiviso, devono gestire conflitti di scrittura, lock, e interferenze reciproche. Questo overhead riduce la velocità e aumenta i costi. Un'istanza dedicata per agente elimina il problema — ma tradizionalmente aveva il costo di provisioning e deprovisioning di un'istanza persistente. Il modello usage-based di Tiger Data trasforma questo costo in variabile proporzionale all'uso effettivo. L'idea è architetturalmente elegante, ma la sua adozione dipende da quante organizzazioni hanno agenti che lavorano in parallelo su dataset diversi in modo sufficientemente frequente da giustificare la complessità di gestire istanze database effimere. Per workflow semplici o a bassa frequenza, il costo di orchestrazione dell'infrastruttura effimera potrebbe superare il risparmio sul compute. Il caso per Pinecone e Tiger Data sarebbe più solido se le piattaforme enterprise non stessero muovendosi nella stessa direzione. IDC documenta che la maggior parte delle organizzazioni si aspetta di fare il lavoro vettoriale all'interno del proprio database esistente — non su un vector store separato. Snowflake ha introdotto Horizon Context, un sistema di contesto gestito