// LES NUMÉRIQUES — INTELLIGENZA ARTIFICIALE
Actualité : ChatGPT : GPT-5.6 montre enfin ce que la prochaine génération d’IA sait faire, mais l’accès reste sous contrôle américain
Plus performant en programmation, en cybersécurité et dans certains travaux scientifiques, GPT-5.6 marque une nouvelle étape pour OpenAI. L'entreprise promet également un raisonnement plus approfondi et des coûts en baisse sur certains modèles. Ces nouveautés restent toutefois réservées à une poignée de partenaires.
© Shuttershock - L’arrivée de GPT-5.6 donne un aperçu de la prochaine évolution de ChatGPT, mais son accès reste pour l’instant réservé à un nombre limité de partenaires.
OpenAI a enfin publié les premiers détails techniques de GPT-5.6. Après plusieurs jours dominés par la question de son accès, limité à la demande des autorités américaines, l'entreprise précise ce que sa nouvelle génération apporte réellement. Les progrès sont mesurables, surtout dans les tâches longues où l'IA doit planifier, utiliser des outils et corriger sa propre trajectoire.
Le modèle haut de gamme, GPT-5.6 Sol, concentre l'essentiel des avancées. Sur TerminalBench 2.1, un benchmark qui évalue la capacité d'un agent IA à accomplir des tâches complètes dans un terminal Linux, il obtient 88,8 %, contre 83,4 % pour GPT-5.5. La variante Sol Ultra atteint 91,9 %, au prix d'un temps de calcul plus élevé, et devance Claude Mythos 5 sur cette épreuve. Le gain est concret : OpenAI affirme que son modèle mène davantage de travaux techniques jusqu'au bout, avec moins d'intervention humaine.
GPT-5.6 Sol se hisse en tête du benchmark TerminalBench 2.1 avec 88,8 %, devant Claude Mythos 5 et GPT-5.5. La version Sol Ultra atteint 91,9 %, au prix d'un temps de calcul plus élevé.
OpenAI revendique aussi des progrès en biologie computationnelle, avec de meilleurs résultats que GPT-5.5 sur GeneBench v1 tout en générant moins de tokens. En cybersécurité, le tableau est plus nuancé. Sur ExploitBench, consacré à la recherche et à l'exploitation de vulnérabilités, GPT-5.6 Sol se rapproche de Mythos Preview en utilisant environ trois fois moins de tokens de sortie. Claude conserve toutefois une avance sur ce test précis.
Sur ExploitBench, GPT-5.6 Sol améliore nettement les résultats de GPT-5.5, mais Claude Mythos Preview conserve une avance sur ce benchmark spécialisé en cybersécurité.
GPT-5.6 introduit aussi deux niveaux de raisonnement. Max donne plus de temps au modèle pour traiter un problème complexe. Ultra répartit le travail entre plusieurs sous-agents. La gamme s'élargit enfin avec Terra, annoncé comme deux fois moins cher que GPT-5.5 à performances comparables sur les usages courants, et Luna, pensé pour les traitements rapides et moins coûteux.
Ces avancées restent hors de portée du grand public. GPT-5.6 est d'abord disponible via l'API et Codex pour un petit groupe de partenaires, dans le cadre d'un lancement progressif demandé par le gouvernement américain. OpenAI dit avoir consacré plus de 700 000 heures GPU A100 équivalent au red-teaming automatisé, afin de renforcer ses garde-fous.
L'entreprise précise aussi que Sol ne franchit pas son seuil Cyber Critical : lors de tests sur Chromium et Firefox, il a identifié des briques d'exploitation, sans produire de chaîne d'attaque complète dans les conditions évaluées. OpenAI évoque une ouverture plus large dans les prochaines semaines... Sans calendrier précis pour la France ou le reste de l'Europe.