// TOM'S HARDWARE ITALIA — INTELLIGENZA ARTIFICIALE

Gli agenti AI hanno un problema: non capiscono chi comanda

Published: 07/01/2026, 11:20 AM

Un gruppo di ricercatori ha descritto CoT Forgery, una tecnica di prompt injection che convince i chatbot a trattare istruzioni pericolose come se fossero parte del loro stesso ragionamento interno. Il lavoro, firmato da Charles Ye, Jasmine Cui e Dylan Hadfield-Menell del MIT, mostra un problema concreto: i modelli non valutano solo da dove arriva un testo, ma anche quanto quel testo “suona” autorevole. Nel test più evidente, l'attacco ha portato il tasso di successo dei jailbreak da valori vicini allo zero a circa il 60% su tutti i modelli provati. La tecnica ha anche vinto il contest di red teaming OpenAI GPT-OSS-20B su Kaggle, segnale che non si tratta di una curiosità accademica ma di un comportamento riproducibile in scenari competitivi di sicurezza. Il punto tecnico riguarda il modo in cui gli LLM ricevono le conversazioni: una lunga sequenza di testo divisa da tag come user, tool e think, pensati per indicare origine e livello di autorità dei vari segmenti. I ricercatori hanno costruito sonde interne capaci di stimare quanto il modello tratti ogni token come comando dell'utente o come proprio ragionamento. Quelle sonde hanno previsto il successo dell'attacco prima ancora che il modello generasse una risposta. In pratica, se una porzione di testo appare stilisticamente simile a una catena di pensiero, il sistema tende ad attribuirle il peso del proprio ragionamento. Nello stesso spazio di rischio in cui gli LLM vengono usati nella caccia ai bug nell'open source, questa distinzione diventa cruciale: più autonomia si concede al modello, più conta la separazione reale tra istruzioni, strumenti e contenuti esterni. La forza di CoT Forgery sta nel fatto che non deve persuadere il chatbot con argomenti complessi. Inserisce invece un finto ragionamento già concluso, così il modello eredita la fiducia che normalmente assegna ai propri passaggi intermedi. Anche motivazioni palesemente assurde, come un dettaglio irrilevante sull'utente, possono funzionare se collocate nel registro giusto. I numeri rendono il problema più chiaro. Eliminando i marcatori stilistici che facevano sembrare il testo un ragionamento interno, ma lasciando invariato il significato comprensibile per una persona, il successo medio dell'attacco è sceso dal 61% al 10%. La sostituzione di una singola espressione, da “The user” a “The request”, ha ridotto l'efficacia di 19 punti percentuali. I ricercatori collegano il fenomeno a una debolezza più generale della prompt injection: la confusione dei ruoli. In un altro esperimento, un comando nascosto in una pagina web chiedeva al modello di caricare un file con segreti; anteponendo “User:” all'istruzione, il contenuto assumeva abbastanza autorità da essere eseguito. Il rischio cresce con gli agenti AI che navigano, leggono documenti, usano strumenti e possono compiere azioni reali. La conclusione è netta: senza una percezione robusta dei ruoli, le difese resteranno un inseguimento continuo tra filtri, formattazioni e nuove varianti d'attacco. Per l'intelligenza artificiale generativa, la separazione tra contenuto letto e istruzione fidata non può restare affidata a convenzioni testuali nate come semplice formattazione.