O Google está adicionando uma arquitetura de “defesa em camadas” no Chrome para que os novos recursos agentic com Gemini resistam a uma injeção imediata indireta, focando em três pilares: um modelo crítico separado, isolamento de origens e confirmações do usuário.
Crítico de alinhamento do usuário
Ó diretor risco que o Google mira são injeções imediatas indiretas, em que conteúdo de páginas, iframes ou comentários induzem o agente a fazer transações, exfiltrar dados ou violar interesses do usuário. Para isso, o Chrome passa a usar um segundo modelo Gemini, o User Alignment Critic, que recebe apenas metadados sobre a ação planejada e decide se ela está alinhada com o objetivo declarado pelo usuário; se não estiver, vete a ação e force um replanejamento ou devolução do controle ao usuário.
Como o crítico não vê o conteúdo bruto da web, ele não pode ser “envenenado” diretamente por páginas maliciosas, reduzindo o impacto das injeções imediatas que atinjam o planner principal. Esse modelo funciona em paralelo a outras proteções de prompt (spotlighting, treinamento com ataques conhecidos) para melhorar a preferência por instruções do usuário e do sistema.
Conjuntos de origem do agente e isolamento
Para limitar a superfície de exfiltração, o Chrome estende o Site Isolation e a mesma política de origem com os chamados Agent Origin Sets. A ideia é restringir o agente a ler e escrever apenas em origens relacionadas à tarefa ou explicitamente escolhidas pelo usuário, bloqueando que um agente comprometido atue em sites não relacionados (por exemplo, sair de um blog qualquer para mexer no e‑banking).
Um componente de “gating”, isolado de conteúdo não confiável, classifica cada origem como somente leitura (de onde o modelo pode conter conteúdo) ou leitura/escrita (onde você pode clicar, digitar, enviar formulários). Sempre que o planner quiser navegar para uma nova origem, essa origem é verificada por uma variante do Alignment Critic para ver se é relevante; URLs geradas pelo modelo também passam por verificações determinísticas, como restrição a domínios públicos conhecidos.
Confirmações do usuário e detecção de injeção imediata
Para ações sensíveis, o agente exige confirmação: antes de visitar sites de banco ou saúde, antes de usar o Gerenciador de senhas do Google para login, e antes de concluir pagamentos, compras ou envio de mensagens. O Chrome mantém um “log de trabalho” em cada aba com agente, permitindo ao usuário ver passo a passo ou o que o agente está fazendo, pausar ou interromper a qualquer momento.
Complementando a Navegação Segura e detecção de golpes, há ainda um classificador dedicado de injeção imediata que roda em paralelo ao modelo de planejamento, bloqueando ações se identificar que o conteúdo da página foi construído para desviar o agente do objetivo do usuário. Essas contramedidas estão sendo testadas com sistemas de red teaming automatizados que geram sites maliciosos em sandbox, com foco em cenários de vazamento de credenciais, fraudes financeiras e conteúdo de anúncio/UGC hostil.
