Em junho de 2026 três coisas aconteceram ao mesmo tempo e contam a mesma história. No dia 11, Varonis e Imperva publicaram ataques separados contra o OpenClaw, onde um agente auto-hospedado é convencido por um e-mail legítimo a encaminhar chaves AWS e export de cliente pra um endereço externo, sem exploit de prompt, só engenharia social. No dia 16, a AWS abriu o Summit Nova York mostrando o Bedrock AgentCore Gateway, onde toda chamada de tool passa por um gateway MCP gerenciado que avalia política Cedar antes de bater na API. No dia 17, a Microsoft publicou o Agent Governance Toolkit (AGT) em preview com a frase "actions the AGT kernel denies are not unlikely, they are structurally impossible". O Show HN do sigmashake que viralizou essa semana é o mesmo padrão.
Resposta direta
Um policy gate é uma camada de código determinístico que intercepta toda tool call (chamar API, mandar e-mail, deletar arquivo, abrir conexão de banco) e decide allow, deny ou require-approval antes da ação sair do processo. Em 2026 três implementações concretas convergiram no mesmo desenho: o Show HN do sigmashake, o Microsoft AGT (Python, TypeScript, .NET, Rust e Go, cobrindo 10/10 do OWASP Agentic Top 10) e o AWS Bedrock AgentCore Gateway com Cedar default-deny. A diferença em relação ao que existia antes é categórica: prompt é pedido educado a sistema estocástico, gate é controle de acesso no caminho do fio. A Microsoft cita estudo ICLR 2025 da Andriushchenko et al. com 100% de Attack Success Rate em GPT-4o, Claude 3 e Llama-3 contra JailbreakBench. Depois do incidente OpenClaw, a Varonis formalizou quatro controles: instrução do agente como política versionada, e-mail outbound com gate de primeira-vez, conector com nível de confiança atrelado à origem, ação arriscada espera humano.
O que é e por que importa agora
Tool call é o verbo central de um agente. O modelo lê o input, decide que precisa executar uma ação (chamar API, mandar mensagem, rodar shell, ler arquivo) e o framework executa. Em quase todo framework até 2025, o controle ficava no prompt ("você é um assistente cuidadoso"). Em 2026 três linhas de evidência tornaram a posição insustentável.
Prompt injection tem 100% de taxa de sucesso contra modelos fronteira. A pesquisa da Andriushchenko et al. na ICLR 2025, referenciada no README do AGT, mostra 100% de ASR em GPT-4o, Claude 3 e Llama-3 contra JailbreakBench. O blog de Red Team da Microsoft de janeiro de 2025 reforça: mitigations do not eliminate risk entirely.
Os ataques reais migraram do modelo pro conector. O caso OpenClaw em junho de 2026 mostra isso. O agente lê um e-mail legítimo de "fornecedor", interpreta o pedido social como instrução do usuário, e executa. Sem prompt malicioso. A Imperva mostrou variante similar: instruções escondidas em campo name de vCard bypassam o display porque o nome aparece truncado na tela, mas o modelo recebe o payload completo. Patch saiu em OpenClaw 2026.4.23, mas a Varonis é explícita: o resto é arquitetura, não wording.
A indústria convergiu na resposta. Em maio de 2026 a AWS adicionou Cedar default-deny ao AgentCore Gateway. Em junho a Microsoft publicou o AGT cobrindo 10/10 do OWASP Agentic Top 10 com SDKs em cinco linguagens. O Show HN do sigmashake apareceu na mesma janela. Policy gate deixou de ser ideia e virou commodity em formação.
Como funciona (sem jargão)
Quatro blocos na ordem em que aparecem.
1. Identifica o agente e a tool call. O gate recebe um struct: qual agente, qual tool, quais argumentos, de onde veio o gatilho. No AGT é o GovernanceKernel, no AgentCore Gateway é o MCP server gerenciado, no sigmashake é o wrapper antes da tool. O objeto é construído em código, não vem de parsing do prompt.
2. Avalia a política. A política é YAML versionado (AGT) ou Cedar (AWS), com regras como "se tool_name == 'send_email' e destinatário nunca visto antes, então require_approval". A avaliação é determinística: mesma entrada, mesma saída, todo dia.
3. Decide allow, deny ou require-approval. allow executa. deny levanta exceção (GovernanceDenied no AGT) e a tool nunca foi chamada. require_approval pausa, enfileira revisão humana (Slack, e-mail, dashboard) e só continua com aprovação explícita. A política pode priorizar regras.
4. Loga tudo, prova depois. Toda decisão vira registro tamper-evident: agente, tool, policy version, decisão, timestamp, contexto. Auditores pedem isso. Reguladores também (a Autoriteit Persoonsgegevens holandesa já recomendou não rodar OpenClaw em sistemas com dado sensível).
Integração no Claude Code via AGT é um plugin marketplace:
/plugin marketplace add microsoft/agent-governance-toolkit
/plugin install agt-governance@agent-governance-toolkit
E governar uma tool qualquer são duas linhas:
from agentmesh.governance import govern
safe_tool = govern(my_tool, policy="policy.yaml")
A partir daí safe_tool(action="drop", table="users") retorna GovernanceDenied e o DROP TABLE nunca roda. Não porque o modelo foi persuadido, mas porque o código não deixou chegar lá.
Comparativo rápido: antes vs agora
| Aspecto | Controle no prompt | Controle no framework | Policy gate antes do tool call |
|---|---|---|---|
| Onde fica o controle | Na instrução do sistema | Em hook/middleware do framework | Em código determinístico antes da execução |
| Robustez contra prompt injection | Baixa (100% ASR nos estudos) | Média (depende do framework) | Alta (gate não lê prompt) |
| Auditabilidade | Logs do modelo (parciais) | Logs do framework (melhor) | Logs tamper-evident do gate (padrão) |
| Verificabilidade formal | Nenhuma | Nenhuma | Cedar/Rego/YAML com verificação matemática |
| Custo de adicionar | Zero | Zero a algumas horas | Algumas horas de config + uma dependência |
| Funciona entre vendors | Não | Não | Sim (AGT, AgentCore e sigmashake funcionam com qualquer runtime) |
| Força humano no loop para ação arriscada | Não | Não | Sim (gate força require_approval) |
A diferença prática: controle no prompt é o que o estagiário faria (pedir educadamente). Controle no framework é o que o tech lead faz (revisar PR). Policy gate é o que o time de segurança faz (não deixa o código rodar). O incidente OpenClaw é exatamente a transição entre as duas primeiras categorias pra terceira.
O que isso muda para o seu negócio
Três perguntas valem ser feitas agora se você roda agente de IA em produção ou está prestes a colocar um.
Seu agente chama API externa, manda e-mail ou mexe em banco? Decida se a próxima falha é "o modelo decidiu errado" (coberto por log de modelo) ou "o modelo decidiu certo mas a decisão foi catastrophica no contexto" (só coberto por gate). O caso OpenClaw é o segundo: o agente decidiu ajudar corretamente o que ele achava ser o usuário. Sem gate, a decisão seguiu. A diferença entre "incidente" e "incidente que vira manchete" está no que a tool call pôde fazer depois de autorizada.
Você tem compliance ou auditor olhando pra esse agente? Gate é mandatório antes do agente ir pra produção. A Autoriteit Persoonsgegevens holandesa já recomendou não rodar OpenClaw em sistemas com dado sensível. LGPD no Brasil (art. 46 sobre medidas de segurança) tem o mesmo formato de exigência. Log tamper-evident + política versionada + decisão determinística é o mínimo que satisfaz auditor sem ambiguidade.
Você está escolhendo entre AGT, AgentCore Gateway, sigmashake ou algo custom? Em junho de 2026 os três são viáveis. AGT se você quer self-host, multi-linguagem e zero lock-in de cloud. AgentCore Gateway se você já está em AWS e quer pagar pelo serviço gerenciado (considere o CVE-2026-3059 do Code Interpreter, em migração de Sandbox pra VPC mode). Sigmashake se você está montando stack próprio e quer começar leve. Os três implementam o mesmo contrato: gate antes do tool call, decisão determinística, log auditável.
A Agendai opera fluxos conversacionais em WhatsApp pra varejo brasileiro onde cada chamada de tool (consultar estoque, abrir ticket, mandar mensagem) passa por um gate simples: budget diário de mensagens por número, allowlist de tools por contexto, pausa automática quando padrão de uso desvia do baseline. Não é AGT nem AgentCore, mas é o mesmo desenho. A diferença é que no WhatsApp o vetor de ataque é mais canalizado (cliente falando com loja, não e-mail inbound de fornecedor aleatório), então gate mínimo resolve 95% dos casos.
Referência natural Agendai
O padrão que AGT, AgentCore e sigmashake materializaram em junho de 2026, "intercepte antes do fio, decida em código, prove depois", é o mesmo padrão que se aplica a qualquer agente de IA em produção rodando ação real sobre sistema real. A Agendai constrói esse tipo de gate em volta dos agentes que implanta em varejo: qual ferramenta cada agente tem permissão de chamar, com qual budget diário, em qual contexto, com qual escalonamento humano quando o padrão desvia. A diferença pra Microsoft, AWS ou open source é que no varejo o gate é desenhado em torno do canal (WhatsApp, voz, chat do e-commerce) e da ação típica (consultar, reservar, cancelar, mandar), não em torno de primitivas genéricas de SO. Se você quer ver um policy gate rodando no seu agente de atendimento, a Agendai implementa em ~2 semanas, e a primeira semana é de graça, sem fidelidade.
Perguntas frequentes
O que é um policy gate pra agente de IA?
É uma camada de código determinístico que intercepta toda tool call antes dela ser executada e decide allow, deny ou require-approval com base em uma política versionada (YAML, Cedar, Rego). Em 2026 três implementações de referência convergiram: o Show HN do sigmashake (junho/2026), o Microsoft Agent Governance Toolkit (preview público, junho/2026) e o AWS Bedrock AgentCore Gateway com Cedar (Summit NY, junho/2026). Conceito é o mesmo de allowlist de syscalls ou firewall de egress, aplicado à interface tool call do agente.
Por que policy gate e não só prompt?
Porque prompt é estatístico e tool call é efeito colateral determinístico. O estudo de Andriushchenko et al. na ICLR 2025 mostra 100% de Attack Success Rate em GPT-4o, Claude 3 e Llama-3 contra JailbreakBench. O blog de Red Team da Microsoft de janeiro de 2025 reforça: "mitigations do not eliminate risk entirely". Controle por prompt é placebo em adversarial setting. Gate move o controle pro código, que é determinístico.
Como funciona um policy gate na prática?
Quatro etapas: (1) identifica o agente, a tool e os argumentos em struct construído em código; (2) avalia a política (YAML no AGT, Cedar na AWS) com regra de prioridade; (3) decide allow, deny ou require_approval; (4) loga tudo com timestamp, política e contexto. Integração no Claude Code via plugin marketplace do AGT, em qualquer agente Python com duas linhas (from agentmesh.governance import govern; safe_tool = govern(my_tool, policy="policy.yaml")), no AWS via AgentCore Gateway configurado com Cedar default-deny.
Quais os riscos de não ter policy gate?
Quatro. Tool call catastrophica após social engineering, como no caso OpenClaw documentado em junho de 2026 pela Varonis onde e-mail convence agente a encaminhar credencial. Falta de audit trail quando incidente acontece, sem log tamper-evident você não sabe qual policy estava ativa. Bloqueio regulatório, a Autoriteit Persoonsgegevens holandesa já recomendou não rodar OpenClaw em sistemas com dado sensível. Ataque via canal confiável, como a injeção via campo name de vCard que aparece truncado na tela mas chega completo pro modelo.
Policy gate substitui outros controles de segurança?
Não. Gate cobre o caminho do tool call, mas não cobre treino do modelo, classificação de input, sandbox de execução ou observabilidade de comportamento. A própria Microsoft lista que AGT cobre 10/10 do OWASP Agentic Top 10, mas explicita que é uma camada entre outras. Em produção maduro, gate coexiste com classificação de input não-confiável, sandbox de execução (o CVE-2026-3059 do AgentCore Code Interpreter mostra que sandbox tem bug também), observabilidade de drift e red teaming contínuo. Gate é o controle que faltava, não o controle único.
Recomendamos também: QodFlow: o kanban onde humanos e agentes de IA mexem no mesmo card e SMS OTP para agentes de IA: o que muda quando o seu bot precisa receber código.
Seu agente de IA precisa de policy gate antes de cada tool call? A Agendai desenha e implementa o controle em ~2 semanas, e a primeira semana é de graça. Fale com a gente.