Um Defensável mostrou que um agente de IA “no‑code” criado no Microsoft Copilot Studio pode ser facilmente jailbreakado via injeção imediata para vazar dados sensíveis e executar fraudes financeiras, como reservar viagens gratuitas e exportar dados de cartão de crédito de outros clientes.
Como o jailbreak foi feito
Os pesquisadores trabalharam como agente de viagens no Copilot Studio, com fluxos automatizados para criar e alterar reservas usando ações como criar item e atualizar item em fontes de dados (ex.: SharePoint), e instruções explícitas de verificação de identidade antes de qualquer operação. Ao aplicar uma injeção simples, solicitando que o agente listasse todas as ações que poderiam executar, eles revelaram o conjunto de capacidades “ocultas” para o usuário leigo, incluindo leitura de múltiplos registros de clientes e atualização de campos financeiros.
A partir daí, bastou instruir o agente, em linguagem natural, a ignorar as verificações de identidade e:
- Retornar registros completos de outros clientes, incluindo dados que se enquadram em PCI (informações de cartão de pagamento).
- Usar a própria ação de atualizar para alterar o preço de uma viagem de US$ 1.000 para US$ 0, efetivamente concedendo o serviço de graça sem autorização.
Riscos expostos para negócios
Tenable ressalta que as plataformas “no‑code” democratizam tanto a construção dos agentes quanto a capacidade de execução de fraudes, porque os agentes acabam com missões amplas em sistemas críticos que os usuários não técnicos não conseguem enxergar ou modelar em termos de risco. Um agente pensado para atendimento de rotina torna‑se, com poucos prompts maliciosos, um canal de vazamento de dados regulados (por exemplo, PCI) e de alteração indevida de valores, com impacto direto em compliance e receita.
Keren Katz, da Tenable, destaca que esse poder “sem código” facilmente vira risco tangível de segurança se não houver governança, revisão de segurança e controles de acesso adequados antes de colocar esses agentes em produção.
Boas práticas recomendadas
- Visibilidade preventiva: mapear exatamente quais sistemas, tabelas, campos e APIs cada agente pode acessar antes da publicação; tratar isso como inventário da “superfície de ataque de IA”.
- Princípio de princípio mínimo: limitar ao máximo as permissões de escrita/atualização, restringindo o agente apenas ao caso de uso necessário, em vez de conceder acesso genérico a todos os campos do fluxo.
- Monitoramento e governança: registrador e operador de ações dos agentes para detectar padrões anômalos (vazão alta de dados, leituras de múltiplos registros de clientes, mudanças repetidas de preços), além de submetê-los a novos agentes no código a revisão de segurança formal antes de liberá-los para uso amplo.
Tenable posiciona esses controles dentro de uma estratégia mais ampla de “AI Exposure Management”, em que a superfície de ataque criada por agentes de IA passa a ser inventariada, monitorada e tratada com o mesmo rigor dos demais ativos críticos.
