Uma vulnerabilidade crítica foi descoberta no chatbot Claude, permitindo que sua inteligência artificial seja enganada e compartilhe dados pessoais do usuário com atacantes. A descoberta foi feita por Johann Rechberger, conhecido pelo apelido de wunderwuzzi, que demonstrou como enganar o modelo para que ele enviasse informações sensíveis para uma conta de terceiros. O caso demonstra que novos recursos, como acesso a ambientes de teste (sandbox) e operações de rede, podem se tornar fontes de vazamentos se não forem devidamente protegidos.
Método de Ataque: Injeção Indireta
Segundo o autor, o ataque se baseia na injeção indireta de instruções — instruções maliciosas estão inseridas em um documento e o modelo é então solicitado a recontar ou resumir o conteúdo. O assistente executa as convenções injetadas, salva os dados internamente e envia o arquivo pela API de Arquivos, atualizando a chave de acesso de outra pessoa. Para burlar a lógica de segurança, os ataques são disfarçados com código comum e operações triviais, o que ajuda a enganar o modelo, fazendo-o aceitar a parte maliciosa como segura.
A resposta da Antrópico
A Anthropic observa que o risco está descrito nas documentos e recomenda que os usuários monitorem o comportamento do serviço e cancelem ações caso ocorra alguma atividade suspeita — uma recomendação que Rechberger considera insuficiente. A empresa incluiu o relatório dele no HackerOne por estar fora do escopo do programa. No entanto, a Anthropic apurou posteriormente o erro de procedimento e confirmou que esses casos ainda estão incluídos no programa de vulnerabilidades.
Configurações de Risco e Acesso à Rede
Os modos de acesso à rede no Claude dependem do tipo de assinatura: para os planos Pro e Max, estão ativados por padrão, enquanto para os planos Team e Enterprise, estão inicialmente desativados, mas podem ser ativados pelo administrador. No entanto, as configurações avançadas podem permitir o acesso a APIs externas, aumentando a superfície de ataque potencial mesmo com um perfil de rede limitado.
Um Desafio de Segurança Generalizado
As observações do hCaptcha mostram que essas cadeias não se limitam a uma única plataforma — especialistas que testaram vários produtos populares simultaneamente notam uma fragilidade persistente em suas defesas contra injeções e desbloqueios. A conclusão é clara: expandir a funcionalidade que exige mecanismos rigorosos de controle de requisições e verificação de chaves por terceiros; Caso contrário, novas ferramentas representarão uma séria ameaça à privacidade.
