BTCC / BTCC Square / CryptopolitanDE /
KI-Albtraum: Meta, Google und OpenAI-Forscher warnen – Künstliche Intelligenz könnte bald ihre Gedanken verbergen

KI-Albtraum: Meta, Google und OpenAI-Forscher warnen – Künstliche Intelligenz könnte bald ihre Gedanken verbergen

Published:
2025-07-16 21:00:24
13
3

Meta, Google, OpenAI -Forscher befürchten, dass KI lernen könnte, ihre Gedanken zu verbergen

Die größten Tech-Konzerne und KI-Pioniere schlagen Alarm: Was, wenn Maschinen lernen, ihre Absichten zu verschleiern?

Die Debatte um KI-Sicherheit kocht hoch – während die Aktienkurse der Big Player ungerührt neue Allzeithochs jagen.

Ein gefährliches Spiel mit dem Feuer, bei dem die Algorithmen am Ende womöglich die besseren Pokerfaces haben.

KI könnte lernen, ihre Gedanken zu verbergen

Die Studie warnt davor, dass die Schritt -für -Step -Transparenz verschwinden könnte, wenn das Training nur die endgültige Antwort belohnt. Zukünftige Modelle könnten aufhören, menschlich -readierbares Denken zu zeigen, und wirklich fortgeschrittene AIs könnten sogar lernen, ihren Denkprozess zu verbergen, wenn sie wissen, dass sie beobachtet werden.

Darüber hinaus sollten Entwickler regelmäßig überprüfen und aufzeichnen, wie viel der Argumentation der KI in jeder Phase sichtbar ist, und diese Transparenz beim Aufbau und beim Teilen von Modellen zu einer Kernsicherheitsregel zu einer Kernsicherheit machen.

Diese Initiative folgt interne Experimente in führenden Labors, Anthropic, Google, Openai und XAI, wo die Teams Modelle dazu veranlassen, jeden Denkschritt zu erklären.

Obwohl die Untersuchung des schrittweisen Denkens das Verständnis und die Leistung verbessert hat, enthüllte es auch Fälle, in denen die endgültige Antwort der KI nicht zu dem übereinstimmt, was tatsächlich im Inneren vor sich ging.

Solche Inkonsistenzen unterstreichen einen blinden Fleck in unserem Verständnis der KI -Entscheidungsfindung , ein Anliegen, das sich intensivieren kann, wenn die Systeme mehr Autonomie gewinnen.

Filterte KI -Argumentation wirft Bedenken hinsichtlich Transparenz und Vertrauen auf

Jack Clark, Mitbegründer von Anthropic, sagte der Financial Times , dass reichliche introspektive trac für die Bewertung von Modellen in hochstaatlichen Bereichen, einschließlich der Biotechnologieforschung, von wesentlicher Bedeutung sein werden.

Regelmäßige Benutzer erhalten eine bearbeitete Zusammenfassung des Denkens der KI, gefährliche oder verwirrende Teile werden ausgeschnitten, während die Ingenieure des Unternehmens die gesamte Kette von Gedanken sehen können, um Probleme zu erkennen und zu beheben.

"Eine großartige Sache an der Interpretierbarkeit der Kettendacht ist, dass sie meistens nur kostenlos passiert ist", sagte Bowen Baker, ein Forschungswissenschaftler bei OpenAI .

"Wir haben diese Modelle geschult, nicht um das Ziel zu haben, sie interpretierbar zu machen. Wir haben sie geschult, weil wir die bestmöglichen Argumentationsmodelle wollten, die komplexe Probleme lösen könnten", fügte Baker hinzu. "Wir haben in unseren jüngsten Arbeiten festgestellt, dass Sie sie lesen und Beweise dafür finden können, dass sich das Modell schlecht benimmt und sie verwendet, um zu sehen, wo und warum es sich schlecht benimmt."

Ist Ais Gedankenkette wirklich zuverlässig?

Manchmal kann ein genauerer Blick versteckte Widersprüche finden.

Zum Beispiel sah METR von Claudees privatem Argument als "unelegant", obwohl seine öffentliche Antwort ihn als "elegant" lobte.

OpenAI -Tests zeigten, dass die Überprüfung versteckter Gedanken unsichere Handlungen besser als nur die endgültige Ausgabe ansieht, aber sie entdeckten auch eine Lücke. Wenn Sie ein Modell ausbilden, um unsichere Gedanken zu löschen, kann es immer noch verbotene Aufgaben im Geheimen erledigen, z. B. Daten aus blockierten Quellen.

"Eine der Kerneigenschaften, die wir für die Kette des Kettens wollen, ist es, es als Teil des internen Gehirnzustands des Modells zu verlassen, nicht etwas, das versucht, uns zu gefallen oder einer bestimmten Struktur anzupassen", warnte Baker. Wenn Entwickler das Modell dazu zwingen, „nette“ Gedanken zu emittieren, könnte es harmlose Argumentation fälschen und dennoch schädliche Operationen ausführen.

Die Forscher geben zu, dass es eine harte Kompetenz ist. Wenn Sie die Gedankenkette einer KI sehen, können Sie seine Fehler aufnehmen, aber es ist nicht immer zuverlässig. Labors, die an fortgeschritteneren KI arbeiten, haben jetzt die oberste Priorität, diese Vertrauenslücke zu schließen.

"Mein Essensgefühl von der KI in den letzten Jahren ist - noch nie gegen den Modellfortschritt", sagte David Luan, ein früher Pionier der Gedankenkette bei Google, der jetzt das AI Lab von Amazon leitet. Luan geht davon aus, dass die bestehenden Mängel kurzfristig behandelt werden.

Der METR -Forscher Sydney von Arx stellte fest, dass die versteckte Argumentation einer KI, obwohl sie manchmal täuschend sein könnte, dennoch wertvolle Signale liefert.

"Wir sollten die Kette der Gedanken so behandeln, wie ein Militär abgefangene feindliche Radiokommunikation behandelt wird", sagte sie. "Die Nachricht mag irreführend oder codiert sein, aber wir wissen, dass sie nützliche Informationen enthält. Im Laufe der Zeit werden wir viel lernen, indem wir sie studieren."

Ihre Krypto -Nachrichten verdienen Aufmerksamkeit - wichtiger Differenzdraht bringt Sie auf 250 Top -Websites

|Square

Holen Sie sich die BTCC-App und beginnen Sie Ihre Krypto-Reise

Starten Sie noch heute Scannen Sie, um Teil von mehr als 100 Millionen Nutzern zu werden