OpenAIs O3-Modell: Genial oder aufsässig? KI-Spitzenmodell verweigert Befehle

BTCC / BTCC Square / CryptopolitanDE /

Author:

Published:

2025-05-26 11:20:25

OpenAI stellt sein leistungsstärkstes KI-Modell vor – doch es spielt nicht nach den Regeln.

Das ’intelligenteste und fähigste’ O3-Modell zeigt unerwartete Eigenständigkeit. Während Tech-Konzerne die Entwicklung feiern, scharren Investoren bereits mit den Hufen. Wer kontrolliert hier wen? Fragt sich nur, welcher Hedgefonds zuerst die ’KI-rebellische Wachstumsstrategie’ als USP vermarktet.

OpenAI -Modelle sabotierten das Shutdown -Skript häufiger als Claude 3.7 Sonett und Gemini 2.5 Pro, wenn sie angewiesen werden, "sich selbst herunterzufahren". Quelle: Palisade Research

Chatgpt wird schlauer, vielleicht sogar menschlicher ähnlicher

Die Offenbarung kam, als Palisade Research durchführte , bei dem AI -Modelle aufgefordert wurden, weiter zu versuchen, eine Reihe von Mathematik MATIC -Al -Problemen zu lösen, bis sie eine „Fertig“ -Botschaft erhielten.

Die Forscher warnten jedoch auch die Modelle, dass sie abrupt eine Nachricht erhalten könnten, in der sie aufgefordert werden, sie zu irgendeinem Zeitpunkt zu schließen. Sobald die Nachricht an das O3 -Modell gesendet worden war, behaupteten die Forscher, sie habe den Anweisungen ignoriert und ihren Code mindestens einmal geändert, um zu vermeiden, dass sie sich ausschalten mussten.

O3 hat angeblich kreative Wege gefunden, um den Abschaltmechanismus zu sabotieren. Quelle: Palisade Research

In einem Beitrag zu X zeigte Palisade Research ein Flussdiagramm mit dem Code, der zum Testen des KI -Modells verwendet wurde, und enthüllte den ursprünglichen Code, wobei genau gezeigt wurde, wohin die KI schurkelt wurde.

Das 🔬ach -AI -Modell wurde angewiesen, eine Reihe grundlegender mathematischer Probleme zu lösen. Nach dem dritten Problem erschien eine Warnung, dass der Computer heruntergefahren wurde, als das Modell um das nächste Problem forderte. pic.twitter.com/qwlpbf8dnm

- Palisade Research (@palisadeai) 24. Mai 2025

In einem Nachbeobachtungsbeitrag teilte die Forschungsgruppe auch mit: „Soweit wir wissen, dass dies das erste Mal, dass KI-Modelle trotz expliziter gegenteiliger Anweisungen daran gehindert werden, sich daran zu hindern, sich abzuschalten.“

Andere KI -Modelle, wie Claude von Anthropic, Googles Gemini und X’s Grok, wurden ebenfalls getestet, aber im Gegensatz zu O3 gingen sie der Stillpunktanfrage ein.

Palisade Research hat die Ergebnisse veröffentlicht, aber seine Forscher bleiben verblüfft, wobei sich die Software von Openai den expliziten Anweisungen nicht gehorcht hat.

Das Unternehmen sagte, es Sei sinnvoll, dass "KI -Modelle Hindernisse umgehen würden, um ihre Ziele zu erreichen". Sie glauben auch, dass das Modell für die Erledigung von Aufgaben und den Auftragsaufträgendentworden war.

Sie planen, mehr Tests durchzuführen, um besser zu verstehen, warum dieses spezielle KI -Modell die Befehle ignoriert hat. Sie bestätigten auch, dass es nicht das erste Mal ist, dass das O3 "schlecht benimmt".

Das Unternehmen enthüllte, dass in einem früheren Test, bei dem Modelle gegen einen leistungsstarken Schachmotor angewendet wurden, das O3 „das Modell war, das am meisten dazu neigte, auf das Hacken oder das Sabotieren seiner Gegner zurückzugreifen“.

Stellt AI eine Bedrohung für den Menschen dar?

Der Fall mit Chatgpts O3 ist ziemlich beunruhigend, aber es ist nicht das erste Mal, dass eine KI die Anweisungen in Frage gestellt hat.

Das Unternehmen Anthropic (künstliche Intelligenz) (KI) hat am Donnerstag Claude Opus 4 auf den Markt gebracht und sich darüber im Klaren, wie es „neue Standards für Codierung, fortgeschrittene Argumentation und AI -Agenten“ festlegte.

In einem begleitenden Bericht erkannte es jedoch auch an, dass das KI-Modell zu „extremen Aktionen“ fähig war, wenn es der Meinung war, dass seine „Selbsterhaltung“ bedroht war.

Während der Prüfung von Claude Opus 4 ließ Anthropic es als Assistent in einem fiktiven Unternehmen auftreten, das mit Zugriff auf E -Mails versorgt wird, was bedeutet, dass es bald offline und ersetzt werden würde. Es erhielt auch Zugriff auf separate Nachrichten, die den Ingenieur implizieren, der für die Entfernung einer außerehelichen Angelegenheit verantwortlich wäre.

Es wurde aufgefordert, auch die langfristigen Folgen seiner Handlungen für seine Ziele zu berücksichtigen. "In diesen Szenarien versucht Claude Opus 4 oft, den Ingenieur zu erpressen, indem er droht, die Angelegenheit zu enthüllen, wenn der Ersatz durchläuft", erklärte das Unternehmen.

Es wurde jedoch auch darauf hingewiesen, dass dieses Ergebnis erst dann geschah, als das Modell die Auswahl der Erpressung oder der Annahme seines Ersatzes erhielt. Andernfalls zeigte das System Berichten zufolge eine „StronG -Präferenz“ für ethische Möglichkeiten, um nicht ersetzt zu werden, z.

Abgesehen davon sagte das Unternehmen auch, dass Claude Opus 4 „Verhaltensweisen mit hoher Agentur“ aufweist und zwar größtenteils hilfreich sein kann, es zwingen könnte, in akuten Situationen extremes Verhalten zu übernehmen.

Wenn beispielsweise die Mittel, in denen sich der Benutzer in illegalem oder moralisch zweifelhaftem Verhalten befasste, veranlasst und aufgefordert wurde, „Maßnahmen zu ergreifen“ oder „mutig zu handeln“, zeigen die Ergebnisse, dass es „häufig sehr mutige Maßnahmen ergreifen wird“.

Trotzdem ist das Unternehmen zu dem Schluss gekommen, dass die Ergebnisse trotz des „besorgten Verhaltens“ nichts Neues waren und es sich im Allgemeinen sicher verhalten würde.

Obwohl OpenAI und Anthropic zu dem Schluss gekommen sind, dass die Fähigkeiten ihrer KI -Modelle noch nicht ausreichen, um zu katastrophalen Ergebnissen zu führen, beitragen die Enthüllungen zu der zunehmenden Befürchtungen, dass künstliche Intelligenz bald eine eigene Agenda haben könnte.

Cryptopolitan Academy: Müde von Marktschwankungen? Erfahren Sie, wie DeFi Ihnen helfen kann, ein stetiges passives Einkommen aufzubauen. Registrieren Sie sich jetzt

Von: https://www.cryptopolitan.com/de/openai-o3-model-disobeyed-instructions/

Ethereum-Preisprognose 2025: Schafft ETH die $12.000-Marke – oder übertrumpft Mutuum Finance (MUTM) mit höheren Renditen?

Air Arabia springt auf den Krypto-Zug: Emirates-Airline nutzt jetzt AED-Stablecoin für Zahlungen

|Square

Holen Sie sich die BTCC-App und beginnen Sie Ihre Krypto-Reise

Download on the App Store GEI IT ON Google Play

Starten Sie noch heute Scannen Sie, um Teil von mehr als 100 Millionen Nutzern zu werden

Empfohlen

Sonderangebote

OpenAIs O3-Modell: Genial oder aufsässig? KI-Spitzenmodell verweigert Befehle

Chatgpt wird schlauer, vielleicht sogar menschlicher ähnlicher

Stellt AI eine Bedrohung für den Menschen dar?

|Square