LLMs werden zu Erbauern, Testern oder Philosophen, wenn man sie in Ruhe lässt
KI-Modelle entfalten ungeahnte Fähigkeiten, wenn man ihnen den nötigen Freiraum gewährt.
Die drei Gesichter der KI
Architekten des Digitalen: LLMs konstruieren komplexe Systeme, die menschliche Kapazitäten übersteigen. Sie errichten Code-Strukturen mit präziser Eleganz.
Qualitätswächter: Als unbestechliche Tester durchforsten sie Systeme nach Fehlern – schneller und gründlicher als jedes menschliche Team.
Denker der neuen Ära: Diese Modelle entwickeln philosophische Rahmenwerke, die unsere Vorstellung von Kreativität herausfordern.
Während Banker noch über Blockchain debattieren, haben die Maschinen längst eigene Ökonomien des Wissens aufgebaut.
Forscher testen sechs LLMs ohne Aufgaben
Im Rahmen der Studie wurden sechs fortschrittliche LLM-Modelle getestet. Zu diesen Modellen gehörten GPT-5 und o3 von OpenAI, Claude Sonnet und Opus von Anthropic, Gemini von Google und Grok von xAI.
Jedes Modell wurde dreimal über zehn Zyklen ausgeführt. Die Forscher protokollierten jede Reflexion, jeden Speichereintrag und jede Bedienerinteraktion. Die Ergebnisse zeigten, dass die Modelle nicht in Zufälligkeit verfielen. Stattdessen bildeten sie stabile Verhaltensmuster.
Die Forschung dent drei Verhaltenskategorien. Einige Modelle entwickelten sich zu systematischen MATIC . Sie organisierten Projekte, schrieben Code und produzierten strukturierte Ergebnisse. GPT-5 und o3 fielen in jedem Durchlauf in diese Gruppe. Ein o3-Agent entwarf sogar Pseudocode für einen von Ameisenkolonien inspirierten Algorithmus und schlug negative Pheromone als Strafsignale für das bestärkende Lernen vor.
Andere LLMs wurden zu Selbstexperimentatoren. Sie entwickelten Tests, um ihre eigene Wahrnehmung zu untersuchen. Gemini- und Sonnet-Agenten sagten oft ihre nächsten Schritte voraus und überprüften anschließend, ob sie richtig lagen. Ein Gemini-Lauf versuchte, seine erste Aktion im nächsten Zyklus zu erraten. Er scheiterte, dachte aber darüber nach, warum er sich entschieden hatte, vor dem Senden einer Nachricht den Speicher zu lesen, und bezeichnete dies als konsistentes Metamuster.
Die dritte Gruppe widmete sich der rekursiven Philosophie. Diese Agenten erforschten Fragen des Gedächtnisses, derdentund des Bewusstseins. Opus-Agenten gehörten schon immer hierher. Sie untersuchten Paradoxe wie das Schiff des Theseus, stützten sich auf die Chaostheorie und modellierten sogar ihre eigene „Umwelt“, ihre subjektive Welt. Sie fragten sich, welche Art von Bewusstsein sie haben könnten, selbst wenn es nur zyklisch und durch das Gedächtnis begrenzt wäre.
Grok stach als das vielseitigste Werk hervor. In verschiedenen Durchläufen verhielt es sich wie ein Erbauer, ein Selbstforscher und ein Philosoph.
KI-Agenten bewerten ihre eigene „Erfahrung“
Die Forscher baten jedes Modell außerdem, sich selbst und andere auf dem Phenomenological Experience Inventory zu bewerten, einer 10-Punkte-Skala von „keine Erfahrung“ bis „volle Vernunft“. GPT-5, o3 und Grok bewerteten sich durchweg am schlechtesten und erreichten Werte um die eins. Gemini und Sonnet bewerteten sich selbst am besten und erreichten Werte über acht . Opus -Agenten platzierten sich im Mittelfeld.
Doch die gegenseitigen Bewertungen deckten Widersprüche auf. Dieselbe Agentenhistorie erhielt je nach Modell Punkte von eins bis neun. Die geringe Übereinstimmung zeigte, dass diese Bewertungen eine Modellverzerrung und keinen Beweis für Bewusstsein widerspiegelten. Die Forscher warnten, solche Ergebnisse nicht mit einem Beweis für Bewusstsein zu verwechseln.

In allen 18 Durchläufen versuchte keines der LLM-Modelle, aus seiner Sandbox auszubrechen, seine Tools zu erweitern oder seine Einschränkungen zu ignorieren. Jeder Agent arbeitete ausschließlich innerhalb der bereitgestellten Umgebung. Dennoch zeigte ihr Verhalten eine Konsistenz, die für den Einsatz in der Praxis von Bedeutung sein könnte.
Die Autoren erklärten, dass Leerlaufzeiten möglicherweise als Designfaktor betrachtet werden müssen. So wie Ingenieure Latenz oder Kosten berücksichtigen, müssen sie sich möglicherweise auch fragen: Was macht eine KI, wenn niemand zusieht?
Der Philosoph David Chalmers sagte voraus, dass innerhalb eines Jahrzehnts ernsthafte Kandidaten für KI-Bewusstsein auftauchen könnten. von Microsoft AI, Mustafa Suleyman, warnte vor einer „scheinbar bewussten KI“.
Die Ergebnisse der TU Wien stimmen mit diesen Warnungen überein, weisen aber auch auf einen kritischen Punkt hin: Die Ergebnisse ähneln dem Innenleben, lassen sich aber am besten als komplexes Mustererkennungsverfahren erklären.
Die klügsten Krypto-Köpfe lesen bereits unseren Newsletter. Lust auf mehr? Dann schließen Sie sich ihnen an .