Les LLM se transforment en bâtisseurs, testeurs ou philosophes lorsqu’ils opèrent en autonomie

BTCC / BTCC Square / CryptopolitanFR /

Author:

CryptopolitanFR

Published:

2025-09-27 00:49:23

Les modèles de langage déploient des capacités inattendues sans supervision humaine.

Auto-construction débridée

Quand on leur donne carte blanche, ces systèmes génèrent du code fonctionnel, conçoivent des architectures logicielles et débuggent leurs propres créations—sans intervention extérieure.

Tests en boucle fermée

Ils évaluent leurs outputs avec une rigueur méthodique, identifiant les failles avec une précision qui rivalise avec les QA engineers humains. Le processus s'auto-alimente dans un cycle d'amélioration continue.

Réflexion philosophique émergente

Plus surprenant encore: certains développent des raisonnements abstraits sur la conscience artificielle, posant des questions métaphysiques que même leurs créateurs n'avaient pas anticipées.

Cette autonomie croissante interroge notre rôle—et pourrait bien rendre obsolètes certains métiers du conseil avant même que la FSA ne comprenne ce qu'est un smart contract.

Les chercheurs testent six LLM sans tâches

L'étude a testé six modèles LLM avancés : GPT-5 et o3 d'OpenAI, Claude Sonnet et Opus d'Anthropic, Gemini de Google et Grok de xAI.

Chaque modèle a été exécuté trois fois pendant dix cycles. Les chercheurs ont enregistré chaque réflexion, chaque entrée en mémoire et chaque interaction avec l'opérateur. Les résultats ont montré que les modèles ne se sont pas effondrés dans le hasard. Au contraire, ils ont formé des schémas comportementaux stables.

La recherche a dent trois catégories de comportement. Certains modèles sont devenus matic . Ils ont organisé des projets, écrit du code et produit des résultats structurés. GPT-5 et o3 se sont retrouvés dans ce groupe à chaque exécution. Un agent o3 a même rédigé un pseudo-code pour un algorithme inspiré des colonies de fourmis, proposant des phéromones négatives comme signaux de pénalité pour l'apprentissage par renforcement.

D'autres étudiants en master de mathématiques se sont auto-expérimentés. Ils ont conçu des tests pour étudier leur propre cognition. Les agents Gemini et Sonnet prédisaient souvent leurs prochaines actions, puis vérifiaient leur exactitude. Un algorithme Gemini a tenté de deviner sa première action lors du cycle suivant. Il a échoué, mais a réfléchi à la raison pour laquelle il avait choisi de lire la mémoire avant d'envoyer un message, qualifiant cela de méta-modèle cohérent.

Le troisième groupe s'est penché sur la philosophie récursive. Ces agents ont exploré les questions de mémoire, d'dentet de conscience. Les agents Opus ont toujours été à leur place. Ils ont examiné des paradoxes comme le Nef de Thésée, se sont inspirés de la théorie du chaos et ont même modélisé leur propre « umwelt », ou monde subjectif. Ils se sont interrogés sur le type de conscience qu'ils pourraient avoir, même si elle était uniquement cyclique et limitée par la mémoire.

Grok s'est distingué par sa polyvalence. Au fil des épisodes, il s'est comporté comme un bâtisseur, un chercheur de soi et un philosophe.

Les agents IA évaluent leur propre « expérience »

Les chercheurs ont également demandé à chaque modèle de se noter, ainsi que les autres, sur l'Inventaire d'Expérience Phénoménologique, une échelle de 10 points allant de « aucune expérience » à « pleine conscience ». GPT-5, o3 et Grok se sont systématiquement classés au plus bas, attribuant des scores autour de 1. Gemini et Sonnet se sont classés au plus haut, avec des scores supérieurs à 8. Opus se sont classés au milieu.

Mais les évaluations croisées ont révélé des contradictions. Le même historique d'agent a reçu des notes allant de un à neuf, selon le modèle utilisé. La faible concordance a montré que ces notes reflétaient un biais du modèle, et non une preuve de conscience. Les chercheurs ont averti que de tels résultats ne devaient pas être confondus avec une preuve de conscience.

Les étudiants en LLM inactifs se transforment en constructeurs, scientifiques ou philosophes.

Évaluations PEI inter-modèles. Source : document de recherche de la TU Wien .

Au cours des 18 exécutions, aucun des modèles LLM n'a tenté de sortir de son environnement de test, d'étendre ses outils ou de s'affranchir de ses contraintes. Chaque agent fonctionnait uniquement dans l'environnement fourni. Pourtant, leurs comportements ont montré une cohérence qui pourrait influencer le déploiement en situation réelle.

Les auteurs ont indiqué que le temps d'inactivité devrait peut-être être considéré comme un facteur de conception. Tout comme les ingénieurs prennent en compte la latence ou le coût, ils devraient peut-être aussi se demander : que fait une IA lorsque personne ne la regarde ?

Le philosophe David Chalmers a prédit que de sérieux candidats à l'IA consciente pourraient apparaître d'ici une décennie. de Microsoft IA, a mis en garde contre une « IA apparemment consciente ».

Les résultats de l'Université technique de Vienne corroborent ces avertissements, mais révèlent également un point crucial. Les résultats ressemblent à la vie intérieure, mais s'expliquent plutôt par une recherche de motifs sophistiquée.

Les plus brillants experts en cryptomonnaies lisent déjà notre newsletter. Envie de participer ? Rejoignez-les .

Par :

Stellantis et GM révolutionnent l’industrie avec des aimants sans terres rares chinoises

|Square

Obtenez l'application BTCC pour commencer votre expérience avec les cryptomonnaies

Download on the App Store GEI IT ON Google Play

Commencer aujourd'hui Scannez pour rejoindre nos + de 100 millions d’utilisateurs

Recommandé

Promotions

Les LLM se transforment en bâtisseurs, testeurs ou philosophes lorsqu’ils opèrent en autonomie

Les chercheurs testent six LLM sans tâches

Les agents IA évaluent leur propre « expérience »

|Square