Le modèle GLM-5.2 de Z.ai réduit l’écart avec OpenAI et Anthropic
Le GLM-5.2, lancé par Z.ai, est présenté par l'entreprise comme un modèle de langage à grande échelle (LLM) à pondération ouverte. Il surpasse les autres LLM open source en matière d'analyse artificielle et se classe parmi les trois meilleurs LLM au monde, ce qui signifie que le GLM-5.2 est très proche des LLM de pointe développés par Anthropic et OpenAI. Cette version pourrait bouleverser le paysage concurrentiel du marché de l'IA. Avant sa publication, les modèles de langage à pondération ouverte étaient largement distancés par leurs homologues à pondération fermée dans la quasi-totalité des tests indépendants. Les résultats des tests du GLM-5.2 indiquent que cet écart se réduit, avec des implications intéressantes pour l'utilisation en entreprise, la tarification et les modèles économiques des laboratoires concernés.
Que disent les résultats de l'analyse comparative à propos de GLM 5.2
Selon la société d'évaluation indépendantedent AI, GLM-5.2 a obtenu les meilleurs résultats parmi les autres dans cinq benchmarks différents : Vals Index, Harvey's Legal Agent Benchmark, Finance Agent v2, ProofBench et Vibe Code Bench.
Vals AI a annoncé que GLM-5.2 est le premier modèle à pondération ouverte à dépasser les 30 % sur ProofBench, soit 11 points de pourcentage de plus que le modèle arrivé deuxième. De plus, il n'est qu'à 1 point de pourcentage du Claude Opus 4.5 d'Anthropic, ce qui le place dans une position exceptionnelle, à la pointe des performances propriétaires.
Présentation de GLM-5.2 : Frontier Intelligence, Open Weights
– Améliorations significatives du codage et des tâches d’agent
–tronCapacités de raisonnement à long terme renforcées avec une fenêtre de contexte d’un million d’éléments
Deux niveaux d’effort de raisonnement : GLM-5.2 (max) repousse les limites, tandis que GLM-5.2 (élevé) offre unetron… pic.twitter.com/SjGPSVhePJ
Selon Artificial Analysis, GLM-5.2 est actuellement le meilleur modèle à pondération ouverte, avec un score d'indice d'intelligence de 51, contre 40 pour GLM-5.1. D'autres modèles, comme MiniMax-M3 et DeepSeek V4 Pro, ont obtenu un score de 44, tandis que Kimi K2.6 a obtenu un score de 43.
GLM-5.2 a obtenu un score de 78 % sur TerminalBench v2.1 (soit 16 points de plus que GLM-5.1), 50 % sur SciCode, 71 % sur AA-LCR et 89 % sur GPQA Diamond. Lors du test de performance d'agents à long terme GDPval-AA v2, GLM-5.2 a atteint un score Elo de 1 524, supérieur aux 1 514 obtenus par GPT-5.5.
Cependant, malgré les performances impressionnantes de GLM 5.2, les experts soulignent que l'interprétation des résultats de référence devient de plus en plus complexe. Par exemple, les modèles agrégés, tels que ceux intégrant l'intelligence artificielle, réduisent l'influence des biais liés aux tests individuels, mais augmentent celle du système de pondération utilisé, des variations induites et de l'évolution des ensembles d'évaluation. La contamination des données de référence et les effets d'optimisation demeurent des préoccupations majeures dans le domaine des tests d'IA de pointe.
Que renferme l'architecture de GLM-5.2 ?
Selon Z.ai, GLM-5.2 est le modèle le plus performant proposé par l'entreprise pour le raisonnement à long terme et la programmation agentique. Ce modèle offre une fenêtre de contexte d'un million de jetons, contre 200 000 pour GLM-5.1.
GLM-5.2 possède une architecture Mixture-of-Experts et se compose d'environ 750 milliards de paramètres au total et de 40 milliards de paramètres actifs, optimisés pour les flux de travail de raisonnement et de codage en plusieurs étapes.
GLM-5.2 utilise deux formes de raisonnement: un mode à effort élevé pour les tâches complexes et un mode à moindre coût conçu pour l'efficacité et le contrôle de la latence.
D'après Artificial Analysis, GLM-5.2 a la capacité de produire environ 43 000 jetons de sortie par opération d'évaluation, contre 26 000 pour GLM-5.1. Bien que cela contribue à améliorer les indicateurs de performance, cela pourrait augmenter les coûts de calcul en pratique.
Le de Z.ai souligne les améliorations apportées aux agents de codage, au processus de débogage, à la recherche automatisée, au traitement des documents et à la génération de textes longs, positionnant ainsi le modèle comme optimisé pour des tâches soutenues et à plusieurs étapes plutôt que pour des invites isolées.
Contexte du marché et frictions de l'écosystème
L'arrivée de GLM-5.2 intervient dans un contexte de débat sur la mesure dans laquelle les systèmes à pondération ouverte rattrapent les modèles propriétaires de pointe. Les entreprises chinoises d'IA occupent des positions de premier plan dans les classements des modèles ouverts, et GLM-5.2 est devenu un élément central de ce processus.
Cette discussion a été rendue publique suite aux commentaires d'Elon Musk et de Jie Tang (fondateur de Z.ai) concernant la date à laquelle les modèles chinois atteindront le niveau des modèles de pointe. Musk a répondu : « Probablement au premier trimestre de l'année prochaine. »
Tang a exprimé son désaccord, déclarant : « Cela ne prendra pas autant de temps. »
Probablement au premier trimestre
— Elon Musk (@elonmusk) 18 juin 2026Bien que les indicateurs de performance puissent montrer une convergence rapide, les premiers retours des praticiens révèlent des écarts de performance dans le monde réel.
L'ingénieur en IA Da7_Tech a exprimé ses inquiétudes moins au sujet du modèle lui-même que de l'infrastructure et de la transparence de la consommation du Z.ai , affirmant que cela « va à l'encontre de tout ce que les gens attendent des valeurs des modèles open-source ».
Il a testé Zcode, Z.aidéveloppée à l'aide de modèles GLM, avec un abonnement Pro qui prétend être « 15 fois plus performant Claude Code ». Lors d'une seule session, il a constaté que le temps d'utilisation était épuisé en moins d'une heure, soit les cinq heures allouées pour l'ensemble de la tâche.
Il a également affirmé qu'il existait un écart entre l'utilisation affichée par l'application et le montant facturé. L'application indiquait moins de 2 millions de jetons, mais son compte a été facturé d'environ 60 millions, en tenant compte des limites journalières et hebdomadaires. Cela laisse supposer que des jetons mis en cache et intermédiaires étaient pris en compte pour l'utilisation plutôt que pour le calcul effectif. Il a ensuite mentionné que Z.ai avait supprimé le comptage des jetons de son « Mode Objectif » et modifié la description de son offre Pro.
Par ailleurs, Michael Guo, concepteur d'IA, a comparé GLM-5.2 à GPT-5.5 (niveau moyen) lors du débogage d'un problème dans son agent OpenClaw nommé Trippy. Voici sa conclusion :
« Du moins, dans le cas de test que j'ai effectué, ses performances étaient loin d'égaler celles de GPT-5.5 medium. Loin de là. »
GPT-5.5 medium a très rapidement trouvé le problème des réponses répétées des agents, alors que GLM-5.2 n'a pas pu le trouver.
En résumé, il a souligné que même si les résultats des tests de performance peuvent laisser penser à de bonnes performances, le travail de débogage proprement dit peut révéler des incohérences qui échappent aux résultats agrégés.
Réduire l'écart, mais avec des réalités d'application variables
Les résultats des tests de performance prouvent que GLM-5.2 est l'une des meilleures architectures open-weight actuellement disponibles, et parfois même meilleure que d'autres architectures propriétaires.
Cependant, les avis concernant les performances, l'efficacité et la transparence du système semblent varier selon les situations d'utilisation et son intégration avec d'autres systèmes.
Il y a donc deux aspects à la question : GLM-5.2 représente une avancée importante dans le développement du domaine des architectures à poids ouvert, mais son application nécessitera autant d’efforts en matière de préparation de l’infrastructure et de qualité du produit que de résultats d’évaluation comparative.
Pour l'instant, GLM-5.2 représente une étape importante vers la réduction de l'écart entre les systèmes d'IA ouverts et fermés, même s'il ne s'agit pas encore d'une convergence décisive.
Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.
Connectez-vous pour répondre
Connectez-vous pour partager votre avisCommentaires
Articles associés
|Square
Obtenez l'application BTCC pour commencer votre expérience avec les cryptomonnaies
Commencer aujourd'hui Scannez pour rejoindre nos + de 100 millions d’utilisateurs