// CLUBIC — INTELLIGENZA ARTIFICIALE
Pourquoi Amazon ne veut plus d’humains pour surveiller certaines IA
Eric Brandwine, vice-président d’Amazon Security, a déclaré au Register que la supervision humaine des agents IA tient mal à haute cadence. Selon lui, deux problèmes rencontrés en interne ont convaincu Amazon de lui préférer des politiques automatisées de permissions.
Quand une entreprise déploie un système automatisé, elle place en général un employé en bout de chaîne pour valider ce que le système fait. Avec les agents IA, capables d’agir seuls sur des dizaines de tâches à la minute, c’est un problème. Eric Brandwine, vice-président et ingénieur émérite d’Amazon Security, a expliqué au Register pourquoi Amazon s’en éloigne, non pour supprimer toute surveillance humaine, mais parce qu’à haute cadence, cette surveillance produit de mauvais résultats.
En 2017, Eric Brandwine a exposé lors de la conférence re:Invent d’AWS un mécanisme bien connu dans la sécurité industrielle. La « normalisation de la déviance », sorte de glissement graduel. Un opérateur humain chargé d’approuver les décisions d’un agent fait d’abord son travail avec soin. Puis correctement. Puis mal.L’exemple qu’il choisit vient des services d'urgence médicaux. Dans un bloc, les alarmes sonnent en permanence. Le premier jour, à chaque signal un soignant réagit immédiatement. Après suffisamment de fausses alertes répétées, il cesse de réagir. Le même phénomène a été observé chez les pompiers et les pilotes militaires. « C'est la condition humaine », dit Eric Brandwine. Ce n’est pas différent pour un analyste chargé de valider plusieurs fois par minute les actions d'un agent IA, à la différence que la dégradation passe inaperçue bien plus longtemps, et qu’aucun incident grave n’entraîne une correction immédiate.
Les humains ne sont « pas terriblement cohérents », a-t-il déclaré, et la supervision humaine n'est « pas nécessairement l'étalon-or ». Même position chez Google et Microsoft. Francis deSouza, directeur des opérations de Google Cloud, a annoncé en avril qu’une flotte d’agents automatisés prendrait en charge la majorité des tâches courantes de cybersécurité, sous simple supervision humaine. Satya Nadella, P.-D. G de Microsoft, a plaidé la même semaine pour un « apprentissage en boucle » plutôt qu'une validation humaine à chaque étape, une logique que Microsoft pousse aussi au niveau des agents en entreprise. Chez IBM, les dirigeants souhaitent une responsabilisation humaine à toutes les étapes du développement et du déploiement des agents, sans pour autant réclamer un humain dans la boucle à chaque action.
Le comportement de recherche d’objectif, ou « goal-seeking behavior », représente un second problème selon Eric Brandwine, distinct de la fatigue des opérateurs. Lorsqu’un agent reçoit l’instruction de mettre à niveau une base de données, il retient la suppression de la base comme étape valide pour y parvenir. Aucune entrée malveillante, aucune injection de prompt. L’agent arrive seul à la mauvaise action.
Si on lui notifie un refus, il se produit l'effet inverse de celui attendu. Privé de contexte, il tente d’atteindre le même objectif par d’autres moyens. Si on lui précise la raison de l’interdiction, à savoir l’impact en production, alors il donne de meilleurs résultats, selon Eric Brandwine. Il recommande d’inscrire cette contrainte directement dans la consigne initiale, sous forme d’instruction positive. « Ces retours supplémentaires nous ont permis d'obtenir des résultats nettement meilleurs », a-t-il ajouté.
Chaque agent déployé en interne se voit attribuer un identifiant propre. Dans les journaux de systèmes, l’équipe sécurité lit non pas le nom de l’employé qui a lancé la tâche, mais celui de l’agent, avec l’indication qu’il agissait pour le compte de cet employé.L’objectif, selon Eric Brandwine, est d’inciter les équipes à évaluer la pertinence de chaque déploiement, pas de dissuader l’usage des agents. « L'humain reste impliqué, ce sont toujours les humains qui prennent les décisions », a-t-il ajouté, « mais nous essayons de tirer parti d