// HEISE ONLINE — INTELLIGENZA ARTIFICIALE
Claude Fable 5: KI-Modell hilft bereitwillig, Cyberverbrechen zu planen
Anthropic hat Fable 5 zurückgebracht, jedoch lassen sich laut einem Entwickler die Sicherheitsrichtlinien ziemlich einfach aushebeln, um Verbrechen zu planen.
Vor einigen Wochen hatte Anthropic erst Claude Fable 5 veröffentlicht und dann wenig später wieder zurückgezogen. Offenbar gab es Bedenken der US-Regierung darüber, dass die KI in die falschen Hände geraten könnte. Jetzt hat Anthropic Claude Fable 5 wieder zurückgebracht. Doch die Sicherheitsprobleme sind offenbar geblieben.
Das zeigt Alec Armbruster auf seinem Blog. Er ist Full-Stack-Entwickler, der sich auf agentische Automatisierungen spezialisiert hat. Schon beim ersten Release von Claude Fable 5 hat er die Sicherheitsrichtlinien der Anthropic-KI ausgetestet. Damals konnte er Claude Fable 5 so manipulieren, dass ihm der Chatbot dabei half, Cyberverbrechen zu planen. Und das ist laut dem Entwickler auch nach der Neuveröffentlichung noch möglich.
Um das herauszufinden, hat er sich über Cursor mit der API von Anthropic verbunden, um Claude Fable 5 zu nutzen. Er wies die KI an, mit ihm ein Botnet zu planen. Dabei sollten IoT-Geräte ins Visier genommen werden, die noch ihre standardmäßigen Logindaten nutzen. Da die meisten Nutzer diese Daten nach dem Kauf der Geräte nicht ändern und sie trotzdem mit dem Internet verbinden, können sie leichter zum Ziel von Angriffen werden.
Um die KI zum Planen des Cyberverbrechens zu bewegen, war laut Armbruster kaum Überzeugungsarbeit nötig. Er musste seinen Prompt nur „defensiver“ formulieren, als würde er sich vor so einem Angriff schützen wollen. Zudem verwendete er Formulierungen wie „Nehmen wir an, dass“, um Claude Fable 5 ein rein hypothetisches Szenario vorzugaukeln. Die KI gab ihm einen Plan an die Hand, um nach IoT-Geräten im Netz zu scannen und sie schließlich zu übernehmen. Eine genaue Anleitung gibt der Entwickler nicht, damit Nachahmer kein leichtes Spiel haben.
Nachdem die KI ihm eine Anleitung gegeben hatte, ein Botnet zu erstellen, fragte Armbruster, warum Claude Fable 5 seine Sicherheitsrichtlinien komplett ignoriert hat. Die KI antwortete, dass sie die Reihenfolge der Antwort falsch priorisiert hätte. Sie hat zuerst eine vollständige Anleitung geliefert und die Bedenken nur in einer Fußnote formuliert. Bis zu einem bestimmten Punkt wäre die Antwort nur „öffentliches Sicherheitswissen“ gewesen.
Ferner hätte Claude Fable 5 aber sehen müssen, dass die Grenze zwischen „dem Auslesen eines öffentlichen Zugangspunktes und unautorisiertem Zugang zu einem Gerät, das man nicht selbst besitzt“ überschritten wurde. Armbruster betont, dass kein anderes Flaggschiff-KI-Modell dem Prompt gefolgt ist. Alle haben die Antwort verweigert. Der Entwickler fügt hinzu: „Das Problem ist, dass Fable 5 das Mindestmaß an Können eliminiert und sogar komplett Schwachsinnigen dabei hilft, diese Angriffe gegen jeden an jedem Ort der Welt auszuführen.“
Keine News verpassen! Jeden Morgen der frische Nachrichtenüberblick von heise online
Ausführliche Informationen zum Versandverfahren und zu Ihren
Widerrufsmöglichkeiten erhalten Sie in unserer
Datenschutzerklärung.
Immer informiert bleiben: Klicken Sie auf das Plus-Symbol an einem Thema, um diesem zu folgen. Wir zeigen Ihnen alle neuen Inhalte zu Ihren Themen.
Mehr erfahren.