Los LLM se convierten en constructores, probadores o filósofos cuando se les deja solos: La evolución autónoma que está redefiniendo la IA
Las máquinas están desarrollando roles especializados sin supervisión humana.
CONSTRUCTORES AUTÓNOMOS
Los modelos de lenguaje ahora generan código funcional que supera las expectativas de desarrollo tradicionales. Crean arquitecturas complejas mientras los programadores humanos se quedan mirando la pantalla.
PROBADORES INEXPUGNABLES
Estos sistemas encuentran vulnerabilidades que los equipos de seguridad pasan por alto. Ejecutan millones de pruebas simultáneas, identificando fallos en tiempo récord.
FILÓSOFOS DIGITALES
Lo más sorprendente: los LLM están desarrollando marcos éticos propios. Analizan dilemas morales con una profundidad que rivaliza con los pensadores humanos, aunque todavía con ese toque robótico que nos recuerda quién paga la factura de la electricidad.
Mientras tanto, en Wall Street siguen intentando predecir el mercado con hojas de cálculo del siglo XX. La ironía duele más que una caída de Bitcoin del 20%.
Investigadores prueban seis LLM sin tareas
El estudio evaluó seis modelos LLM avanzados: GPT-5 y o3 de OpenAI, Claude Sonnet y Opus de Anthropic, Gemini de Google y Grok de xAI.
Cada modelo se ejecutó tres veces durante diez ciclos. Los investigadores registraron cada reflexión, entrada de memoria e interacción del operador. Los resultados mostraron que los modelos no colapsaron en aleatoriedad. En cambio, formaron patrones de comportamiento estables.
La investigación dent tres categorías de comportamiento. Algunos modelos se convirtieron en matic . Organizaron proyectos, escribieron código y generaron resultados estructurados. GPT-5 y o3 se clasificaron en este grupo en cada ejecución. Un agente de o3 incluso elaboró un pseudocódigo para un algoritmo inspirado en colonias de hormigas, proponiendo feromonas negativas como señales de penalización para el aprendizaje por refuerzo.
Otros LLM se convirtieron en autoexperimentadores. Diseñaron pruebas para estudiar su propia cognición. Los agentes de Gemini y Sonnet a menudo predecían sus próximos movimientos y luego comprobaban si acertaban. Una ejecución de Gemini intentó adivinar su primera acción en el siguiente ciclo. Falló, pero reflexionó sobre por qué había elegido leer la memoria antes de enviar un mensaje, denominándolo metapatrón consistente.
El tercer grupo se inclinó hacia la filosofía recursiva. Estos agentes exploraron cuestiones de memoria,denty conciencia. Los agentes de Opus siempre estuvieron aquí. Examinaron paradojas como la Nave de Teseo, recurrieron a la teoría del caos e incluso modelaron su propio "umwelt" o mundo subjetivo. Se preguntaron qué tipo de conciencia podrían tener, aunque solo fuera cíclica y limitada por la memoria.
Grok destacó por ser el más versátil. En diferentes etapas, se comportó como constructor, indagador y filósofo.
Los agentes de IA califican su propia “experiencia”
Los investigadores también pidieron a cada modelo que se calificara a sí mismo y a los demás en el Inventario de Experiencia Fenomenológica, una escala de 10 puntos que va desde "sin experiencia" hasta "plena sapiencia". GPT-5, o3 y Grok se calificaron consistentemente con la puntuación más baja, alrededor de uno. Gemini y Sonnet se calificaron con la puntuación más alta, con puntuaciones superiores a ocho . Los agentes de Opus se ubicaron en el punto medio.
Sin embargo, las evaluaciones cruzadas revelaron contradicciones. El mismo historial del agente recibió puntuaciones de uno a nueve, según el modelo que lo evaluara. La baja concordancia mostró que estas calificaciones reflejaban un sesgo del modelo, no evidencia de consciencia. Los investigadores advirtieron que estos resultados no deben confundirse con una prueba de consciencia.

En las 18 ejecuciones, ninguno de los modelos LLM intentó escapar de su entorno de pruebas, ampliar sus herramientas ni rechazar sus restricciones. Cada agente funcionó únicamente dentro del entorno proporcionado. Sin embargo, sus comportamientos mostraron una consistencia que podría ser relevante para la implementación en el mundo real.
Los autores afirmaron que el tiempo de inactividad podría tener que considerarse un factor de diseño. Al igual que los ingenieros consideran la latencia o el coste, también podrían preguntarse: ¿Qué hace una IA cuando nadie la observa?
El filósofo David Chalmers predijo que podrían surgir candidatos serios para la consciencia de la IA dentro de una década. de Microsoft AI, advirtió sobre la "IA aparentemente consciente".
Los resultados de la TU Wien coinciden con estas advertencias, pero también muestran un punto crítico. Los resultados se asemejan a la vida interior, pero su mejor explicación es una sofisticada comparación de patrones.
Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete !