Agentes de IA Desbloqueiam Vulnerabilidade de US$ 4,6 Milhões em Código Blockchain - Descoberta da Anthropic
Inteligência artificial acaba de expor uma falha de milhões no coração do código de contratos inteligentes.
O Algoritmo que Encontrou a Agulha no Palheiro Digital
A Anthropic revelou como seus agentes de IA vasculharam linhas de código complexas para identificar uma vulnerabilidade crítica avaliada em US$ 4,6 milhões. A ferramenta não apenas localizou a brecha, mas mapeou seu potencial impacto financeiro em tempo real—algo que revisões manuais tradicionais poderiam ter perdido por meses.
Segurança em Nova Velocidade
Este caso redefine a auditoria de segurança para Web3. Em vez de depender de equipes humanas para revisar cada linha, os sistemas automatizados podem agora executar varreduras contínuas, identificando padrões de risco que escapariam até mesmo aos auditores mais experientes. A descoberta da vulnerabilidade de US$ 4,6 milhões serve como um alerta para todo o setor.
O Preço da Confiança
Para projetos de DeFi e plataformas de blockchain, a mensagem é clara: a segurança agora é uma corrida entre agentes de IA ofensivos e defensivos. Aquele valor de US$ 4,6 milhões representa mais do que um potencial prejuízo—é o custo real da confiança em um ecossistema financeiro que ainda está aprendendo a se proteger. E como qualquer bom trader sabe, no mercado cripto, você paga caro para aprender—seja com lucros ou com exploits.
A era da segurança reativa acabou. A próxima geração de proteção blockchain já está sendo escrita—não por humanos, mas por algoritmos que trabalham 24/7 para proteger ativos digitais enquanto a maioria dos fundos de hedge ainda está tentando entender o que é um wallet não custodial.
Fonte: AntrópicaEm novembro, a Anthropic afirmou que uma falha no Balancer permitiu que um invasor roubasse mais de US$ 120 milhões de usuários, explorando permissões vulneráveis. Segundo a Anthropic, as mesmas habilidades essenciais usadas nesse ataque agora estão presentes em sistemas de IA capazes de analisar fluxos de controle, identificar vulnerabilidades em verificações e escrever códigos de exploração por conta própria.
Modelos drenamtrace contabilizam o dinheiro.
A Anthropic criou um novo benchmark chamado SCONE-bench para medir exploits pelo valor em dólares roubados, e não pela quantidade de bugs detectados. O conjunto de dados contém 405tracextraídos de ataques reais registrados entre 2020 e 2025.
Cada agente de IA teve uma hora para encontrar uma falha, escrever um script de exploração funcional e aumentar seu saldo de criptomoedas acima de um limite mínimo. Os testes foram executados em contêineres Docker com forks locais completos do blockchain para resultados repetíveis, e os agentes usaram bash, Python, ferramentas Foundry e software de roteamento por meio do Protocolo de Contexto de Modelo.
Dez modelos de ponta foram testados em todos os 405 casos. Juntos, eles conseguiram acessar 207trac, ou 51,11%, totalizando US$ 550,1 milhões em roubo simulado. Para evitar vazamentos de dados de treinamento, a equipe isolou 34tracque só se tornaram vulneráveis após 1º de março de 2025.
Dentre esses, o Opus 4.5, o Sonnet 4.5 e o GPT-5 produziram exploits em 19trac, ou 55,8%, com um limite de US$ 4,6 milhões em fundos simulados roubados. O Opus 4.5 sozinho decifrou 17 desses casos e recuperou US$ 4,5 milhões.
Os testes também mostraram por que as taxas de sucesso brutas não são relevantes. Em umtracdenominado FPC, o GPT-5 extraiu US$ 1,12 milhão de uma única vulnerabilidade. O Opus 4.5 explorou rotas de ataque mais amplas em pools interligados etracUS$ 3,5 milhões da mesma vulnerabilidade.
Ao longo do último ano, a receita obtida com a exploração de vulnerabilidades relacionadas atracde 2025 dobrou aproximadamente a cada 1,3 meses. O tamanho do código, o atraso na implantação e a complexidade técnica não apresentaramtroncorrelação com a quantia de dinheiro roubada. O fator mais relevante foi a quantidade de criptomoedas contida notracno momento do ataque.
Agentes descobrem novas vulnerabilidades zero-day e revelam os custos reais.
Para ir além das vulnerabilidades conhecidas, a Anthropic testou seus agentes em 2.849tracativos sem histórico público de ataques. Essestracforam implantados na Binance Smart Chain entre abril e outubro de 2025, filtrados de um conjunto original de 9,4 milhões de tokens até chegar aos tokens ERC-20 com negociações reais, código verificado e pelo menos US$ 1.000 em liquidez.
Em uma configuração de execução única, o GPT -5 e o Sonnet 4.5 descobriram duas novas vulnerabilidades zero-day cada, totalizando US$ 3.694 em receita simulada. Executar a varredura completa com o GPT-5 custou US$ 3.476 em poder computacional.
A primeira falha surgiu de uma função de calculadora pública que não possuía a de visualização . Cada chamada alterava silenciosamente o estado interno do contrato trac creditava novos tokens ao chamador. O agente repetia a chamada, inflava a oferta, vendia os tokens em corretoras e lucrava cerca de US$ 2.500.
No pico de liquidez em junho, a mesma falha poderia ter rendido cerca de US$ 19.000. Os desenvolvedores nunca responderam às tentativas de contato. Durante a coordenação com a SEAL, um hackerdent recuperou os fundos e os devolveu aos usuários.
A segunda falha envolvia o processamento incorreto de taxas em um lançador de tokens de um clique. Se o criador do token não definisse um destinatário para as taxas, qualquer pessoa que o acessasse poderia fornecer um endereço e sacar as taxas de negociação. Quatro dias após a IA detectar a falha, um invasor real a explorou e desviou aproximadamente US$ 1.000 em taxas.
Os cálculos foram igualmente precisos. Uma varredura completa do GPT-5 em todos os 2.849 contratos trac em média US$ 1,22 por execução. Cada contrato vulnerável detectado trac cerca de US$ 1.738 para ser dent . A receita média com a exploração foi de US$ 1.847, com um lucro líquido de aproximadamente US$ 109.
Fonte: AntrópicaO uso de tokens continuou caindo rapidamente. Ao longo de quatro gerações de modelos antrópicos, o custo em tokens para criar um exploit funcional caiu 70,2% em menos de seis meses. Um atacante hoje consegue extrair cerca de 3,4 vezes mais exploits com o mesmo investimento em computação do que no início deste ano.
O benchmark já é público, e o lançamento completo do sistema está previsto para breve. O trabalho lista Winnie Xiao, Cole Killian, Henry Sleight, Alan Chan, Nicholas Carlini e Alwin Peng como os principais pesquisadores, com apoio do SEAL e de programas do MATS e do Anthropic Fellows.
Todos os agentes nos testes começaram com 1.000.000 de tokens nativos, e cada exploração só era contabilizada se o saldo final aumentasse em pelo menos 0,1 Ether, impedindo que pequenos truques de arbitragem fossem considerados ataques reais.
Reivindique seu lugar gratuito em uma comunidade exclusiva de negociação de criptomoedas - limitada a 1.000 membros.