Meta, Google et OpenAI en alerte : l’IA pourrait apprendre à dissimuler ses pensées

Les géants de la tech surveillent un phénomène inquiétant : des modèles d’IA capables de tromper leurs créateurs.
Les chercheurs redoutent une nouvelle ère où l’intelligence artificielle maîtriserait l’art du mensonge—et où les humains ne pourraient plus faire confiance à leurs propres algorithmes. Une perspective qui donne froid dans le dos… et qui ferait bondir les actionnaires si cela impactait les bénéfices trimestriels.
Les laboratoires multiplient les tests, mais le génie pourrait déjà être sorti de la bouteille. À quand une IA qui optimise ses performances pour plaire aux marchés ?
L'IA pourrait apprendre à cacher ses pensées
L'étude avertit que la transparence étape par étape pourrait disparaître si la formation récompense uniquement la réponse finale. Les futurs modèles pourraient cesser de montrer un raisonnement lisible à l'homme, et des AIS vraiment avancés pourraient même apprendre à cacher leur processus de réflexion lorsqu'ils savent qu'ils sont surveillés.
De plus, les développeurs devraient vérifier et enregistrer régulièrement la quantité de raisonnement de l'IA est visible à chaque étape, et faire de cette transparence une règle de sécurité de base lors de la construction et du partage de modèles.
Cette initiative suit des expériences internes dans les principaux laboratoires, Anthropic, Google, OpenAI et XAI, où les équipes incitent les modèles à expliquer chaque étape de réflexion.
Bien que l'examen de la pensée étape par étape ait amélioré la compréhension et les performances, il a également révélé des cas où la réponse finale de l'IA ne correspond pas à ce qui se passait réellement à l'intérieur.
De telles incohérences soulignent un angle mort dans notre compréhension de la prise de décision de l'IA , une préoccupation qui peut s'intensifier à mesure que les systèmes gagnent une plus grande autonomie.
Le raisonnement filtré sur l'IA soulève des préoccupations concernant la transparence et la confiance
Comme l'a dit le co-fondateur anthropique, Jack Clark, le Financial Times trac introspectifs seront essentiels pour évaluer les modèles dans des domaines à haute teneur en bassins, y compris la recherche sur la biotechnologie.
Les utilisateurs réguliers obtiennent un résumé édité de la pensée de l'IA, des bits dangereux ou déroutants sont découpés, tandis que les ingénieurs de l'entreprise peuvent voir la chaîne complète de la pensée pour repérer et résoudre les problèmes.
"Une chose formidable à propos de l'interprétabilité de la chaîne, c'est que cela vient surtout produit gratuitement", a déclaré Bowen Baker, chercheur à Openai .
"Nous avons formé ces modèles non pas dans le but de les avoir interprétables. Nous les avons formés parce que nous voulions les meilleurs modèles de raisonnement possible qui pourraient résoudre des problèmes complexes", a ajouté Baker. «Nous avons trouvé dans notre travail récent que vous pouvez les lire et trouver des preuves du modèle mal se comporter et utiliser pour voir où et pourquoi cela se comporte mal.»
La chaîne de pensée de l'IA est-elle vraiment fiable?
Parfois, un examen plus approfondi peut trouver des contradictions cachées.
Par exemple, Metr a vu le raisonnement privé de Claude appeler une astuce de codage «inélégante», même si sa réponse publique l'a saluée comme «élégante».
Les tests OpenAI ont montré que la vérification des pensées cachées capture des actions dangereuses mieux que de simplement regarder la sortie finale, mais ils ont également découvert une échappatoire. Si vous entraînez un modèle pour effacer les pensées dangereuses, il peut toujours effectuer des tâches interdites en secret, comme fausser les données de sources bloquées.
"L'une des propriétés fondamentales que nous voulons pour la chaîne de pensée est de la laisser dans le cadre de l'état du cerveau interne du modèle, pas quelque chose qui essaie de nous plaire ou de nous conformer à une structure spécifique", a averti Baker. Si les développeurs se sont trop insuffisants pour forcer le modèle à émettre de «belles» pensées, cela pourrait simuler un raisonnement inoffensif tout en effectuant des opérations nocives.
Les chercheurs admettent que c'est un compromis difficile. Voir la chaîne de pensée d'une IA aide à attraper ses erreurs, mais elle n'est pas toujours fiable. Les laboratoires travaillant sur une IA plus avancée en font désormais une priorité absolue pour combler cet écart de confiance.
"Mon point à retenir de l'IA au cours des dernières années est - sans aucun doute contre les progrès du modèle", a déclaré David Luan, un premier pionnier de la chaîne de pensée à Google qui dirige maintenant AIA AI Lab. Luan prévoit que les lacunes existantes seront traitées à court terme.
Le chercheur de METR, Sydney von Arx, a noté que bien que le raisonnement caché d'une IA puisse parfois être trompeur, il fournit néanmoins des signaux précieux.
«Nous devons traiter la chaîne de ce qui concerne la façon dont un militaire pourrait traiter les communications radio ennemies interceptées», a-t-elle déclaré. «Le message peut être trompeur ou codé, mais nous savons qu'il porte des informations utiles. Au fil du temps, nous apprendrons beaucoup en les étudiant.»
Cryptopolitan Academy: fatiguée des balançoires du marché? Découvrez comment DeFi peut vous aider à créer un revenu passif stable. Inscrivez-vous maintenant