// PUNTO INFORMATICO — INTELLIGENZA ARTIFICIALE
Gemini 3.5 Flash permette di controllare il computer
Google ha annunciato che la funzionalità Computer Use è supportata anche da Gemini 3.5 Flash introdotto circa un mese fa. Come si deduce dal nome, gli sviluppatori possono usare il modello per creare agenti AI che simulano le interazioni umane con il computer. Questa capacità era finora disponibile solo con Gemini 2.5.
Gli agenti AI eseguono compiti in autonomia per conto dell’utente. Gemini 3.5 Flash consente di estendere questa capacità all’intero computer. Il nuovo modello di Google può vedere, ragionare ed eseguire azioni in tre ambienti: browser, desktop e mobile. Utilizzando le API di Gemini o la Gemini Enterprise Agent Platform, gli sviluppatori possono creare agenti personalizzati che simulano le interazioni umane.
Il primo passo è inviare una richiesta API al modello con le impostazioni di configurazione (incluso l’ambiente di destinazione), un prompt e uno screenshot. Gemini 3.5 Flash analizza lo schermo e il prompt, fornendo una risposta con l’azione da eseguire. Se consentita (o autorizzata dall’utente), l’azione viene eseguita. Al termine viene catturato un altro screenshot e il ciclo si ripete.
Gli agenti AI che sfruttano la funzionalità Computer Use di Gemini 3.5 Flash nell’ambiente browser possono simulare scrolling e clic del mouse, scrittura di testo, pressione dei tasti, tornare alla pagina precedente e andare alla pagina successiva. Simili azioni sono supportate nell’ambiente desktop. Nell’ambiente mobile (Android) permette di simulare tap brevi e lunghi sullo schermo, tornare alla schermata precedente, elencare e aprire le app.
Nel seguente video, Gemini 3.5 Flash analizza l’app Gemini e descrive le sue funzionalità.
Google ha implementato diverse protezioni per garantire sicurezza e privacy. Gemini 3.5 Flash chiede il permesso prima di effettuare pagamenti, accedere a dati sensibili (medici, finanziari), inviare email e messaggi, aprire nuovi account, modificare i file, gestire i banner per i cookie, accettare termini di servizio e contratti. Analizza inoltre i pixel degli screenshot per rilevare eventuali istruzioni nascoste (prompt injection).