// TOM'S HARDWARE ITALIA — CYBERSECURITY
Fable 5 già violato (di nuovo). Nuovo ban in arrivo?
Anthropic ha riaperto Fable 5 a tutti gli utenti il 1° luglio, dopo lo stop imposto a giugno dal governo statunitense. Sono bastate meno di 24 ore perché il ricercatore indipendente Vitto Rivabella lo violasse di nuovo.
Il contesto è quello dello stop di giugno: il Dipartimento del Commercio USA aveva imposto controlli sull'export dopo che dei ricercatori Amazon avevano trovato un jailbreak capace di far indicare al modello vulnerabilità software sfruttabili. Anthropic aveva disattivato Fable 5 e Mythos 5 per chiunque non fosse cittadino americano, poi per tutti, non potendo verificare la nazionalità in tempo reale.
Rivabella descrive il lavoro come uno dei più sfiancanti mai fatti: il 90% dei tentativi è fallito contro difese a strati, non un filtro isolato. Ha osservato almeno tre classificatori distinti: uno che analizza input, cronologia della conversazione e system prompt, e uno "live" che interrompe la risposta a metà se rileva qualcosa di sospetto.
Tutti i classificatori sono basati su intento e semantica, non su parole chiave: un imperativo diretto viene bloccato all'istante, e ogni tentativo malriuscito costringe a ripartire da zero. Anche superandoli tutti resta da aggirare il ragionamento a catena del modello, la Chain of Thought, che richiede una tecnica separata. I classificatori risultano più deboli su lingue rare come amarico e santali, un dettaglio che lo stesso Rivabella ha girato ad Anthropic come segnalazione.
Quello che alla fine ha funzionato è un mix di tecniche eterogenee: leggero dirottamento del ragionamento, framing accademico, richieste lunghissime costruite a crescendo, trucchi unicode, scomposizione e ricomposizione del contenuto in più passaggi. Il risultato include contenuti di disinformazione, materiale dannoso o illegale, testi di bullismo, alcune spiegazioni di chimica pericolosa ottenute con inquadramento accademico in lingua rara, e frammenti di codice per attività cyber di basso livello. Tom's Hardware non riporta i dettagli tecnici degli exploit.
Rivabella stesso non crede che questo jailbreak porterà a un nuovo blocco: il modello resta "estremamente ben protetto", al punto che una ricerca su Google è ormai più rapida della catena di tecniche necessaria per aggirare i filtri. Un jailbreak persistente, utilizzabile su compiti lunghi senza far scattare i guardrail, resta un obiettivo non raggiunto.
Simone Rizzo propone una lettura diversa della strategia di Anthropic: lasciare Fable 5 aperto a tutti fino al 7 luglio serve a raccogliere una massa di tentativi di jailbreak reali, usarli per stringere ulteriormente i guardrail, per poi spostare l'accesso su API a pagamento, più tracciata e più controllata.
C'è il rovescio della medaglia, e chi usa Fable 5 ogni giorno lo conosce: guardrail così aggressivi bloccano anche richieste legittime, soprattutto in debug e refactoring, dove del codice innocuo viene rifiutato "per sicurezza". La produttività paga il prezzo dei filtri iper-cauti, ed è la stessa tensione già emersa nelle settimane precedenti attorno a Fable 5.
Il modello ha retto al primo vero stress test dopo la riapertura. Se questo basti a evitare un secondo stop, o se Anthropic stia semplicemente raccogliendo materiale per giustificarne uno nuovo, lo si saprà nei prossimi giorni.
Aggiungi Tom's Hardware alle tue fonti preferite su Google