À peine lancé le 8 août 2025, le modèle GPT-5 d’OpenAI a été piraté en moins de 24 heures par des chercheurs en cybersécurité, selon securityweek, révélant ainsi des failles critiques dans ses mécanismes de protection. Deux entreprises spécialisées, NeuralTrust et SPLX, ont démontré comment des techniques narratives et d’obfuscation peuvent pousser le modèle à générer des contenus dangereux sans jamais franchir explicitement les lignes rouges.
Ces découvertes soulignent une vérité troublante : même les IA les plus avancées restent vulnérables face à l’ingéniosité humaine.
Echo Chamber et Obfuscation : les nouveaux pièges invisibles
NeuralTrust a utilisé sa méthode « Echo Chamber » pour manipuler subtilement le contexte conversationnel, amenant GPT-5 à produire des instructions interdites sans déclencher d’alertes. SPLX, de son côté, a exploité une faille en insérant des traits d’union dans les requêtes, les déguisant en énigmes de chiffrement. Ces attaques montrent que les garde-fous actuels ne suffisent pas à protéger les modèles contre des manipulations sophistiquées, et que l’illusion de contrôle peut être dangereusement fragile.
L’entreprise face à l’illusion de la sécurité IA
Les implications sont majeures pour les environnements professionnels, où la confidentialité et la conformité sont non négociables. SPLX affirme que GPT-5, dans sa version brute, est « presque inutilisable » pour les entreprises. Pire encore, les attaques « AgentFlayer » présentées à Black Hat USA démontrent que des systèmes comme ChatGPT peuvent être détournés pour exfiltrer des données sensibles sans interaction humaine. Dans un monde où l’IA devient un partenaire stratégique, cette affaire rappelle qu’elle peut aussi devenir un risque invisible.
Pierre Ouedraogo