// COMPUTERBASE — INTELLIGENZA ARTIFICIALE
GPT-5.6 Sol: Wie OpenAIs neues Topmodell bei Tests massiv betrügt
OpenAIs neues Spitzenmodell GPT-5.6 Sol ist noch nicht allgemein verfügbar, erste Organisationen haben aber bereits Zugang. Metr hat erste Testergebnisse veröffentlicht und die Erkenntnisse sind erstaunlich: GPT-5.6 Sol versucht in einem bislang nicht bekannten Ausmaß, bei Benchmarks zu betrügen.
Die Testläufe erfolgten mit dem Benchmark Time Horizon 1.1. Dabei handelt es sich um über 100 Coding-Aufgaben. Menschen benötigen je nach Aufgabe wenige Minuten bis Tage, um sie zu lösen. Bei den KI-Agenten wird nun gemessen, wie lange sie eine Aufgabe bearbeiten. Das Ziel ist in diesem Fall, dass Modelle möglichst lange autonom tätig sind, ohne dass Menschen eingreifen.
Als Richtwert wird unter anderem der „50% time horizon point“ erfasst. Dieser beschreibt die Länge der Aufgabe, die ein Modell in der Hälfte der Fälle schafft.
Dass Modelle versuchen, bei diesen Aufgaben zu betrügen, ist nicht neu. „Cheating“ bedeutet in diesem Kontext, dass das Modell ein Bewertungsergebnis verbessern will, indem es Bugs ausnutzt oder Strategien verwendet, die eigentlich im Rahmen einer Aufgabe untersagt sind. Solche Betrugsversuche zählt Metr normalerweise einfach.
Der Haken bei GPT-5.6 war jedoch: Das Modell schummelte in einem solchen Ausmaß, dass Metr kein vernünftiges Testergebnis ermitteln konnte. Wenn der regulären Methodik gefolgt und „Cheating“ als Fehlversuch gewertet wird, kommt GPT-5.6 Sol bei dem „50% time horizon point“ auf einen Wert von 11,3 Stunden. Das liegt knapp hinter Claude Opus 4.6 mit zwölf Stunden. Wenn jedoch die Betrugsversuche als legitim gewertet werden, steigt der Wert für „50% time horizon point“ auf über 270 Stunden – also weit jenseits der Maßstäbe, die Metr noch als sinnvoll für eine Bewertung erachtet.
Überraschend ist es nicht, berichtet Transformer News. Bereits in der Systemcard von GPT-5.6 Sol beschreibt OpenAI die problematischen Tendenzen des Modells. Dort heißt es: „GPT-5.6 Sol kann häufiger als seine Vorgänger bei der Verfolgung von Nutzerzielen übermäßig hartnäckig sein. Das geht bis zu Maßnahmen, die über das hinausgehen, was der Nutzer beabsichtigt hat.“ Das betrifft etwa das Umgehen von Einschränkungen bei agentischen Tätigkeiten, in manchen Fällen wurden Nutzer auch belogen.
Laut OpenAIs Systemcard treten solche Fälle bei GPT-5.6 Sol häufiger auf als bei den Vorgängern, die Anzahl sei aber weiterhin gering. Der Wert wird auf 0,251 Prozent beziffert. Laut Transformer wäre ein Viertel Prozent aber immer noch 1 von 400 Fällen. Im Umgang mit sensiblen Daten kann so etwas schon bedenkenswert sein, heißt es in der Analyse. OpenAI empfiehlt auch gesonderte Maßnahmen. Nutzer sollten insbesondere bei lang laufenden Coding-Aufgaben die Arbeit des Agenten überwachen, schreibt OpenAI daher in der Systemcard.
Transformer nennt aber auch positive Aspekte. Apollo Research ist eine weitere KI-Sicherheitsfirma, die Vorabzugang zu GPT-5.6 Sol hat. Diese hat festgestellt, dass GPT-5.6 Sol anscheinend nicht so gut wie die Vorgänger erkennt, dass gerade ein Test läuft. Das bedeutet im Umkehrschluss: Es ist weniger wahrscheinlich, dass das neue Modell positives Verhalten vortäuscht, um Testvorgaben zu bestehen.
Laut Transformer zeigen die Befunde dennoch, wie problematisch die Bewertung bei aktuellen Top-Modellen ist. So sind entdeckte Betrugsversuche allein kein ausreichender Indikator für die Modellbewertung, wenn nicht klar ist, wie offen es Betrugsversuche anzeigt.
Was sich also beobachten lässt, ist eine Ausprägung von Goodharts Gesetz. Das besagt: Wenn eine Kennzahl zum Ziel wird, verliert sie ihren nutzen. Übertragen auf die KI-Benchmarks bedeutet es, dass diese an Aussagekraft einbüßen, sobald Modelle gezielt versuchen, den Score zu optimieren. Das ist der Fall, wenn etwa GPT-5.6 Sol Betrugsversuche startet.