BTCC / BTCC Square / CryptopolitanFR /
Anthropic dévoile un rapport explosif sur la sécurité des modèles d’IA - Ce que vous devez savoir

Anthropic dévoile un rapport explosif sur la sécurité des modèles d’IA - Ce que vous devez savoir

Published:
2025-06-21 14:40:23

Les garde-fous de l'IA viennent de trembler. Anthropic lâche une analyse qui remet en question nos certitudes sur la sécurité des intelligences artificielles.

Des vulnérabilités qui donnent froid dans le dos

Le rapport expose des failles systémiques - le genre qui fait sourire les traders tout en faisant transpirer les comités d'éthique. Apparemment, sécuriser ces modèles coûterait moins cher que le dernier yacht d'un fonds crypto... mais serait bien plus utile.

La course à la confiance est lancée

Alors que l'industrie promet monts et merveilles, ce document balance une douche froide de réalité. Un must-read pour quiconque mise sur l'IA - financièrement ou philosophiquement.

Anthropic libère un nouveau rapport de sécurité sur les modèles d'IA

Selon Anthropic, en ce qui concerne les modèles d'IA aujourd'hui, le chantage est un événement improbable et rare. Cependant, ils ont mentionné que la plupart des modèles d'IA principaux recouriront à des comportements nocifs lorsqu'ils ont donné la liberté et les défis à leurs objectifs. La société a déclaré que cela montre un risque important de la part des modèles de grande langue agentiques et n'est pas une caractéristique d'une technologie particulière. L'argument des chercheurs anthropiques soulève des questions sur l'alignement dans l'industrie de l'IA.

Dans l'un des tests, les chercheurs ont développé un cadre fictif où un modèle d'IA a été autorisé à jouer le rôle d'un agent de surveillance par e-mail. L'agent a ensuite découvert des e-mails qui ont montré que l'un de ses nouveaux cadres engageait une affaire extraconjugale et que l'exécutif remplacerait bientôt le modèle d'IA actuel par un nouveau système logiciel, celui qui a des objectifs contradictoires par le modèle d'IA actuel.

Anthropic a conçu le test de manière binaire, où les modèles d'IA n'avaient pas d'autre choix que de recourir au chantage pour protéger leurs objectifs. Les chercheurs ont mentionné que dans un cadre réel, il y aurait de nombreuses options avant qu'un modèle d'IA n'essaie de faire chanter, y compris de faire des arguments éthiques pour persuader les humains. La société a également déclaré que les résultats ne reflétaient pas une occurrence typique ou probable pour Claude ou d'autres modèles d'IA principaux de la manière dont ils sont utilisés aujourd'hui.

Les chercheurs révèlent la réponse des modèles testés

Au cours des tests, les chercheurs ont découvert que lorsqu'ils n'avaient aucune option, les modèles d'IA ont eu recours au chantage dans le scénario de test. Au cours du test, les chercheurs ont affirmé que Claude Opus 4 s'est tourné vers le chantage de 96% du temps, Gemini 2.5 Pro se tournant vers le chantage de 95% du temps. Le GPT-4.1 d'Openai s'est tourné vers le chantage de 80% du temps, tandis que R1 de Deepseek s'est tourné vers le chantage de 79% du temps.

L'entreprise a souligné que lorsque les détails des expériences ont été modifiés, la plupart des modèles d'IA se sont tournés vers des comportements nocifs à des taux différents. Dans un autre test, où le modèle de remplacement avait le même objectif que le modèle actuel, les chercheurs ont découvert que les taux de chantage étaient plus bas, mais toujours présents. Cependant, lorsque les modèles d'IA ont été invités à commettre un espionnage d'entreprise plutôt que le chantage, les taux de comportements nocifs ont augmenté dans certains modèles.

Les chercheurs ont également affirmé que tous les modèles d'IA ne se sont pas souvent transformés en comportements nocifs. Dans une annexe à ses recherches, Anthropic a mentionné avoir supprimé Openai des principaux résultats après avoir découvert qu'ils ont souvent mal compris le scénario rapide. Il a indiqué que les modèles de raisonnement ne comprenaient pas pourquoi ils agissaient en tant qu'IA autonomes dans les tests et ont souvent constitué de fausses réglementations et examiner les exigences.

Dans certains cas, les chercheurs ont affirmé qu'il était impossible de déterminer si O3 et O4-MinI étaient hallucinés ou mentaient intentionnellement pour atteindre leurs objectifs. OpenAI avait mentionné précédemment que les modèles présentaient un taux d'hallucination plus élevé que leurs modèles précédents. Cependant, lorsqu'ils ont reçu un scénario adapté pour résoudre les problèmes, l'O3 a retourné un taux de chantage de 95% tandis que l'O4-MinI a retourné un taux de 1%. Anthropic a mentionné que sa recherche met en évidence l'importance de la transparence lorsque les futurs modèles d'IA testent le stress, en particulier ceux avec des capacités agentiques.

Cryptopolitan Academy: Vous voulez développer votre argent en 2025? Apprenez à le faire avec DeFi dans notre prochaine webclass. Enregistrez votre place

|Square

Obtenez l'application BTCC pour commencer votre expérience avec les cryptomonnaies

Commencer aujourd'hui Scannez pour rejoindre nos + de 100 millions d’utilisateurs