// TOM'S HARDWARE ITALIA — INTELLIGENZA ARTIFICIALE

Google rinvia Gemini 3.5 Pro a luglio: c'è ancora del lavoro da fare

Published: 06/29/2026, 02:20 PM

Google non ha rispettato la scadenza di giugno per Gemini 3.5 Pro. Il modello, annunciato per la disponibilità generale questo mese, rimane bloccato in preview limitata su Vertex AI per le imprese, mentre il lancio pubblico è stato spostato a luglio. Il motivo dichiarato: incorporare il feedback dei primi tester e ottimizzare le performance, in particolare sul consumo di token nei task agentici. Il ritardo non è una curiosità da blog. Qualsiasi piano interno costruito sulla disponibilità di Gemini 3.5 Pro a giugno va rivisto. E il perché del rinvio dice qualcosa di importante su dove siamo davvero nel ciclo di maturazione dei modelli frontier. Il problema emerso dai test è noto: Gemini 3.5 Flash, il modello minore della stessa famiglia lanciato a maggio, ha ricevuto critiche dagli sviluppatori per un consumo di token superiore alle aspettative nei flussi di lavoro agentici. Google ora vuole assicurarsi che la versione Pro non ripeta lo stesso schema. La questione non è banale. Gemini 3.5 Pro è progettato per una finestra di contesto da 2 milioni di token (il doppio di Claude Opus 4.8 e della maggior parte dei concorrenti) e per il supporto a task agentici lunghi e complessi. Proprio questa architettura rende il controllo del consumo critico: un agente che ragiona su contesti estesi e chiama tool in sequenza può bruciare token a una velocità che rende il costo per task economicamente non sostenibile per molti use case enterprise. Google sta lavorando su questo con feedback raccolti sulla piattaforma Antigravity e su LMArena, dove utenti selezionati hanno già accesso al modello. Il tuning riguarda anche la modalità "Deep Think", la funzione di ragionamento approfondito che sarà disponibile agli abbonati Ultra ($250/mese) e che è tra le funzionalità più attese dagli sviluppatori che lavorano su catene di analisi complessa. Il prezzo atteso per le chiamate API è nell'ordine dei $15 per milione di token in input e $60 per milione in output, circa dieci volte il costo di Flash. A questi livelli, ogni inefficienza nel consumo si trasforma direttamente in costi operativi misurabili. Google ha tutto l'interesse a risolverli prima del lancio pubblico, invece che dopo. Il ritardo è anche un segnale indiretto di pressione competitiva. Negli ultimi mesi, quattro ricercatori senior di Google sono passati ad Anthropic, e la corsa agli agenti si è intensificata con l'arrivo di Claude Opus 4.8 e dei nuovi modelli di OpenAI. Google non può permettersi di lanciare un modello che venga rapidamente smontato dai benchmark indipendenti o, peggio, da feedback negativi degli sviluppatori sulla piattaforma. Il ritardo di Gemini 3.5 Pro non è un incidente isolato. È parte di un pattern che si ripete: i modelli frontier vengono annunciati con tempistiche ambiziose e poi slittano. GPT-4o con le nuove modalità vocali, Claude 3.7 Sonnet con i limiti di Extended Thinking, Llama 4 con la versione Maverick. La messa a punto per task lunghi, agentici, e multi-step è strutturalmente più difficile di quella per benchmark standard. Due implicazioni pratiche emergono per le aziende che stanno costruendo su questi modelli. La prima: evitare piani dipendenti da un singolo vendor. Un ritardo di un mese su Gemini 3.5 Pro è gestibile; un ritardo di tre mesi su un modello diventato infrastruttura critica per un prodotto interno è un problema serio. La strategia multi-modello, con strati di astrazione come LiteLLM o Vercel AI SDK che permettono di cambiare provider senza riscrivere l'applicazione, è una copertura del rischio operativo, prima ancora che una scelta architetturale.