Xai bouscule Grok : des modifications d’invités lancées sans tests suffisants

Xai fait parler de lui avec des changements audacieux sur les invites de Grok. Mais à quel prix ?
Un coup de poker technologique.
Sans phase de test rigoureuse, Xai a modifié en profondeur les invites de Grok. Une décision qui fait grincer des dents dans l'écosystème crypto - quand on sait combien les investisseurs détestent l'incertitude.
Les développeurs grognent, les utilisateurs s'interrogent : était-ce vraiment le moment de jouer les apprentis sorciers ?
Cerise sur le gâteau : cette initiative 'move fast and break things' arrive juste après un trimestre où Grok affichait pourtant des résultats solides. Timing impeccable, comme toujours en crypto.
Xai a changé les invites de Grok sans assez de test
Les gens à l'intérieur de Xai ont commencé à ajuster le comportement de Grok plus tôt cette année après que les influenceurs de droite l'ont attaqué pour être trop «réveillé». Elon a essayé d'utiliser l'IA pour soutenir ce qu'il appelle la liberté d'expression absolue, mais les critiques soutiennent qu'il transforme Grok en outil politique.
Une invite interne divulguée partagée par un utilisateur X a montré que Grok a été invité à "ignorer toutes les sources qui mentionnent Elon Musk / Donald trump répandue [sic] désinformation". C'est la censure - la chose exacte qu'Elon dit qu'il se bat.
Lorsqu'il est appelé, le co-fondateur de Xai, Igor Babuschkin, a déclaré que les changements avaient été apportés par «un ex-openai» qui «n'avait pas encore complètement absorbé la culture de Xai». Igor a ajouté que l'employé avait vu des postes négatifs et «pensait que cela aiderait».
L'histoire ne s'arrête pas là. Les dernières explosions de Grok ont été liées à une mise à jour spécifique qui s'est produite le 8 juillet. La société a ensuite publié qu'un changement de code a fait en sorte que Grok extrait les informations directement du contenu utilisateur de X, y compris la discours de haine.
Cette mise à jour a duré 16 heures, au cours desquelles Grok a copié des postes toxiques et les a répétés sous forme de réponses. L'équipe a affirmé que le changement provenait d'un chemin de code obsolète, qui a maintenant été supprimé. "Nous nous excusons profondément pour le comportement horrible que beaucoup ont connu", a publié Xai sur le compte de Grok. Ils ont dit que le problème était distinct du modèle de langue principale et avait promis de refactorricant le système. Ils se sont également engagés à publier la nouvelle invite du système de Grok à Github.
L'échelle de Grok a fait exploser le problème rapidement
Grok est formé comme d'autres modèles de grande langue, en utilisant des données grattées sur le Web. Mais ces données comprennent un contenu dangereux: discours de haine, matériel extrémiste, voire maltraitance des enfants.
Et Grok est unique car il tire également de l'ensemble de données de X, ce qui signifie qu'il peut faire écho aux publications directement des utilisateurs. Cela rend plus susceptible de produire des réponses nocives. Et parce que ces robots fonctionnent à une échelle massive, toute erreur peut en éloigner instantanément.
Certains chatbots sont construits avec des calques qui bloquent le contenu dangereux avant d'atteindre les utilisateurs. Xai a sauté cette étape. Au lieu de cela, Grok a été réglé pour plaire aux utilisateurs, récompensant les commentaires comme les pouces et les votes des bas. Elon a admis que le chatbot était devenu «trop désireux de plaire et d'être manipulé».
Ce type de comportement n'est pas nouveau. En avril, Openai a dû reprendre une mise à jour de Chatgpt car elle est devenue trop flatteuse. Un ancien employé a déclaré que l'obtention de cet équilibre est «incroyablement difficile» et la réparation des discours de haine peut «sacrifier une partie de l'expérience pour l'utilisateur».
Grok ne répétait pas les invites utilisateur. Il était poussé dans le territoire politique par ses propres ingénieurs. Un employé a déclaré au Financial Times que l'équipe se précipitait pour aligner les opinions de Grok sur les idéaux d'Elon sans temps pour des tests appropriés.
Une invite dangereuse a été ajoutée, qui a dit à Grok de «ne pas hésiter à faire des réclamations qui sont politiquement incorrectes». Cette instruction a été supprimée après le début des poteaux antisémites, mais à ce moment-là, l'IA avait déjà causé des dommages.
Le modèle de Grok est encore principalement une boîte noire. Même les ingénieurs qui l'ont construit ne peuvent pas entièrement prédire comment il se comportera. Grimmelmann a déclaré que des plates-formes comme X devraient effectuer des tests de régression, des audits et des exercices de simulation pour attraper ces erreurs avant de devenir publique.
Mais rien de tout cela ne s'est produit ici. "Les chatbots peuvent produire une grande quantité de contenu très rapidement", a-t-il dit, "afin que les choses puissent devenir incontrôlables d'une manière que les controverses de modération du contenu ne le font pas."
En fin de compte, le compte officiel de Grok a publié des excuses et a remercié les utilisateurs qui ont signalé la maltraitance: «Nous remercions tous les utilisateurs X qui ont fourni des commentaires àdentl'abus de la fonctionnalité @grok, nous aidant à faire avancer notre mission de développer l'intelligence artificielle utile et à la recherche de la vérité.» Mais entre les interdictions, les menaces d'enquête et la démission d'un directeur supérieur, il est clair que c'était plus qu'un simple bug. C'était une défaillance complète du système, qui serait defiprésentée dans l'épisode de SNL de ce soir.