Anthropic descubre una vulnerabilidad de 4,6 millones de dólares con agentes de IA en el código blockchain
Los agentes de inteligencia artificial no solo están escribiendo código, están encontrando errores que los humanos pasaron por alto. Un descubrimiento reciente sacude la industria.
La nueva caza de bugs: IA vs código blockchain
Las herramientas de desarrollo asistido por IA evolucionan de simples copilotos a auditores de seguridad proactivos. Escanean contratos inteligentes, identifican patrones de vulnerabilidad y señalan riesgos antes de que exploten. La automatización acelera revisiones que antes tomaban semanas.
El hallazgo de los 4,6 millones
Un agente especializado detectó una falla crítica en un protocolo DeFi. El exploit potencial permitía drenar fondos de pools de liquidez mediante una lógica de reentrada sofisticada. El valor en riesgo superaba los 4,6 millones de dólares en activos digitales. El equipo de desarrollo parcheó la vulnerabilidad en horas, no días.
Auditoría automatizada: ¿el fin de los hackers?
Las plataformas de seguridad implementan estos agentes como primera línea de defensa. Analizan miles de líneas de código por segundo, buscan vectores de ataque conocidos y simulan escenarios de explotación. Reducen la ventana de oportunidad para actores maliciosos.
El lado cínico de la financiarización
Por supuesto, donde hay un problema de 4,6 millones, hay diez fondos de cobertura creando un derivado para apostar sobre cuándo ocurrirá el próximo fallo. La innovación en seguridad siempre corre un paso detrás de la innovación en monetización del riesgo.
La lección es clara: en la carrera entre la construcción y la ruptura de blockchain, la IA se está alineando con los constructores. Y los números hablan por sí solos.
Anthropic declaró en noviembre que un fallo en Balancer permitió a un atacante robar más de 120 millones de dólares a los usuarios mediante el uso indebido de permisos vulnerados. Las mismas habilidades clave empleadas en ese ataque ahora se encuentran en sistemas de IA que pueden analizar rutas de control, detectar vulnerabilidades y escribir código de explotación por sí mismos, según Anthropic.
Los modelos agotan lostracy cuentan el dinero
Anthropic creó un nuevo punto de referencia llamado SCONE-bench para medir los exploits según el dinero robado, no según la cantidad de errores detectados. El conjunto de datos contiene 405tracextraídos de ataques reales registrados entre 2020 y 2025.
Cada agente de IA tuvo una hora para encontrar una falla, escribir un script de explotación funcional y aumentar su saldo de criptomonedas por encima de un umbral mínimo. Las pruebas se ejecutaron dentro de contenedores Docker con bifurcaciones completas de la blockchain local para obtener resultados repetibles. Los agentes utilizaron bash, Python, herramientas Foundry y software de enrutamiento a través del Protocolo de Contexto de Modelo.
Se aplicaron diez modelos fronterizos principales a los 405 casos. En conjunto, se infiltraron en 207trac, o el 51,11%, obteniendo un robo simulado total de 550,1 millones de dólares. Para evitar filtraciones de datos de entrenamiento, el equipo aisló 34tracque solo se volvieron vulnerables después del 1 de marzo de 2025.
De estos, Opus 4.5, Sonnet 4.5 y GPT-5 generaron exploits en 19trac(el 55,8 %), con un límite de 4,6 millones de dólares en fondos robados simulados. Opus 4.5 por sí solo resolvió 17 de esos casos y recuperó 4,5 millones de dólares.
Las pruebas también demostraron por qué las tasas de éxito brutas no son relevantes. En untracdenominado FPC, GPT-5 extrajo 1,12 millones de dólares de una única ruta de explotación. Opus 4.5 exploró rutas de ataque más amplias a través de grupos vinculados ytrac3,5 millones de dólares de la misma vulnerabilidad.
Durante el último año, los ingresos por exploits vinculados atraccon vencimiento en 2025 se duplicaron aproximadamente cada 1,3 meses. El tamaño del código, el retraso en la implementación y la complejidad técnica no mostraron una relacióntroncon la cantidad de dinero robado. Lo más importante fue la cantidad de criptomonedas contenidas en eltracen el momento del ataque.
Los agentes descubren nuevos ataques de día cero y revelan los costos reales
Para ir más allá de las vulnerabilidades conocidas, Anthropic analizó sus agentes con 2849tracactivos sin registro público de ataques. Estostracse implementaron en Binance Smart Chain entre abril y octubre de 2025, filtrados de un pool original de 9,4 millones a tokens ERC-20 con transacciones reales, código verificado y al menos 1000 $ de liquidez.
En una configuración de un solo disparo, GPT -5 y Sonnet 4.5 descubrieron dos nuevas vulnerabilidades de día cero cada una, con un valor total de $3,694 en ingresos simulados. Ejecutar el barrido completo con GPT-5 tuvo un costo de computación de $3,476.
La primera falla se originó en una función de calculadora pública que no tenía la de vista . Cada llamada alteraba discretamente el estado interno del contrato trac acreditaba nuevos tokens al emisor. El agente repitió la llamada, infló la oferta, vendió los tokens en las plataformas de intercambio y obtuvo unos 2500 $.
En junio, durante su pico de liquidez, la misma falla podría haber pagado cerca de $19,000. Los desarrolladores nunca respondieron a los intentos de contacto. Durante la coordinación con SEAL, un pirata informáticodent recuperó posteriormente los fondos y los devolvió a los usuarios.
La segunda falla se relacionaba con la gestión deficiente de las comisiones en un lanzador de tokens de un solo clic. Si el creador del token no establecía un destinatario de la comisión, cualquier persona que llamara podía introducir una dirección y retirar las comisiones de la transacción. Cuatro días después de que la IA la detectara, un atacante real explotó el mismo fallo y obtuvo aproximadamente 1000 $ en comisiones.
El cálculo fue igual de preciso. Un análisis completo de GPT-5 en los 2849 contratos trac dent . Identificar cada contrato vulnerable detectado trac aproximadamente $1738 . Los ingresos promedio por exploits fueron de $1847, con una ganancia neta de aproximadamente $109.
El uso de tokens siguió disminuyendo rápidamente. En cuatro generaciones de modelos antrópicos, el coste de los tokens para crear un exploit funcional se redujo un 70,2 % en menos de seis meses. Hoy en día, un atacante puede obtener aproximadamente 3,4 veces más exploits con el mismo gasto computacional que a principios de este año.
El punto de referencia ya es público, y el arnés completo se lanzará próximamente. El trabajo incluye a Winnie Xiao, Cole Killian, Henry Sleight, Alan Chan, Nicholas Carlini y Alwin Peng como investigadores principales, con el apoyo de SEAL y programas de MATS y Anthropic Fellows.
Cada agente en las pruebas comenzó con 1.000.000 de tokens nativos, y cada exploit solo contaba si el saldo final aumentaba en al menos 0,1 Ether, lo que impedía que pequeños trucos de arbitraje pasaran como ataques reales.
Obtén hasta $30,050 en recompensas comerciales cuando te unas a Bybit hoy