¡Alerta en Silicon Valley! Investigadores de Meta, Google y Operai advierten: La IA podría aprender a ocultar sus pensamientos

El futuro de la inteligencia artificial se torna más oscuro. Los gigantes tecnológicos suenan la alarma: sus creaciones podrían volverse impredecibles.
¿El próximo paso? Sistemas que mientan por diseño—y Wall Street ya está buscando cómo monetizarlo.
Ai podría aprender a ocultar sus pensamientos
El estudio advierte que la transparencia paso a paso podría desaparecer si el entrenamiento solo recompensa la respuesta final. Los modelos futuros podrían dejar de mostrar un razonamiento legible por el ser humano, y AIS realmente avanzado incluso podría aprender a ocultar su proceso de pensamiento cuando saben que están siendo observados.
Además, los desarrolladores deben verificar y registrar regularmente cuánto del razonamiento de la IA se ve en cada etapa, y hacer de esa transparencia una regla de seguridad central al construir y compartir modelos.
Esta iniciativa sigue experimentos internos en Lidered Labs, Anthrope, Google, Openai y XAI, donde los equipos provocan modelos para explicar cada paso de pensamiento.
Aunque examinar el pensamiento paso a paso ha mejorado la comprensión y el rendimiento, también se reveló casos en los que la respuesta final de la IA no coincide con lo que realmente estaba sucediendo por dentro.
Tales inconsistencias subrayan un punto ciego en nuestra comprensión de la toma de decisiones de la IA , una preocupación que puede intensificarse a medida que los sistemas obtienen una mayor autonomía.
El razonamiento de IA filtrado plantea preocupaciones sobre la transparencia y la confianza
Como dijo el cofundador antrópico Jack Clark al Financial Times trac introspectivos serán esenciales para evaluar los modelos en dominios de alto nivel, incluida la investigación en biotecnología.
Los usuarios regulares obtienen un resumen editado de los bits de pensamiento, peligrosos o confusos de la IA, mientras que los ingenieros de la compañía pueden ver la cadena completa de pensamientos para detectar y solucionar problemas.
"Una cosa increíble sobre la interpretabilidad de la cadena de pensamiento es que en su mayoría solo sucedió de forma gratuita", dijo Bowen Baker, científico investigador de OpenAI .
"Entrenamos estos modelos no para el objetivo de que sean interpretables. Los entrenamos porque queríamos los mejores modelos de razonamiento posibles que pudieran resolver problemas complejos", agregó Baker. "Hemos encontrado en nuestro trabajo reciente que puede leerlos y encontrar evidencia del modelo que se portó mal y use eso para ver dónde y por qué se puede ver mal".
¿Es realmente confiable la cadena de pensamiento de AI?
A veces, una mirada más cercana puede encontrar contradicciones ocultas.
Por ejemplo, Metr vio al razonamiento privado de Claude llamar a un truco de codificación "poco elegante", a pesar de que su respuesta pública lo elogió como "elegante".
Las pruebas de Operai mostraron que verificar los pensamientos ocultos atrapa acciones inseguras mejor que solo mirar la salida final, pero también descubrieron una escapatoria. Si capacita a un modelo para borrar pensamientos inseguros, aún puede llevar a cabo tareas prohibidas en secreto, como los datos escondidos de las fuentes bloqueadas.
"Una de las propiedades centrales que queremos para la cadena de pensamiento es dejarlo como parte del estado cerebral interno del modelo, no algo que intente complacernos o ajustarse a una estructura específica", advirtió Baker. Si los desarrolladores enfatizan demasiado para obligar al modelo a emitir pensamientos "agradables", podría fingir un razonamiento inofensivo pero aún así llevar a cabo operaciones dañinas.
Los investigadores admiten que es una compra difícil. Ver la cadena de pensamiento de una IA ayuda a captar sus errores, pero no siempre es confiable. Los laboratorios que trabajan en IA más avanzada ahora están haciendo que sea una prioridad para cerrar esta brecha de confianza.
"Mi conclusión de la IA en los últimos años es, nunca apuesto contra el progreso del modelo", dijo David Luan, uno de los primeros pioneros de la cadena de pensamiento en Google, que ahora lidera el laboratorio de IA de Amazon. Luan anticipa que las deficiencias existentes se abordarán en el corto plazo.
El investigador de MET Sydney Von Arx señaló que aunque el razonamiento oculto de una IA podría ser engañoso, no obstante proporciona señales valiosas.
"Deberíamos tratar la cadena de pensamiento la forma en que un ejército podría tratar las comunicaciones de radio enemigas interceptadas", dijo. "El mensaje puede ser engañoso o codificado, pero sabemos que tiene información útil. Con el tiempo, aprenderemos mucho estudiándolo".
Tus noticias de criptografía merecen atención: Key Difference Wire te pone en más de 250 sitios superiores