Pular para conteúdo principal
agendai
Voltar

Policy gate antes do tool call: 2026 é o ano do controle de acesso

Show HN sigmashake, Microsoft AGT, AWS Bedrock AgentCore Gateway e os ataques ao OpenClaw de junho de 2026 convergem no mesmo padrão: gate antes do tool call.

IA6 minPor Agendai

Em junho de 2026 três coisas aconteceram ao mesmo tempo e contam a mesma história. No dia 11, Varonis e Imperva publicaram ataques separados contra o OpenClaw, onde um agente auto-hospedado é convencido por um e-mail legítimo a encaminhar chaves AWS e export de cliente pra um endereço externo, sem exploit de prompt, só engenharia social. No dia 16, a AWS abriu o Summit Nova York mostrando o Bedrock AgentCore Gateway, onde toda chamada de tool passa por um gateway MCP gerenciado que avalia política Cedar antes de bater na API. No dia 17, a Microsoft publicou o Agent Governance Toolkit (AGT) em preview com a frase "actions the AGT kernel denies are not unlikely, they are structurally impossible". O Show HN do sigmashake que viralizou essa semana é o mesmo padrão.

Resposta direta

Um policy gate é uma camada de código determinístico que intercepta toda tool call (chamar API, mandar e-mail, deletar arquivo, abrir conexão de banco) e decide allow, deny ou require-approval antes da ação sair do processo. Em 2026 três implementações concretas convergiram no mesmo desenho: o Show HN do sigmashake, o Microsoft AGT (Python, TypeScript, .NET, Rust e Go, cobrindo 10/10 do OWASP Agentic Top 10) e o AWS Bedrock AgentCore Gateway com Cedar default-deny. A diferença em relação ao que existia antes é categórica: prompt é pedido educado a sistema estocástico, gate é controle de acesso no caminho do fio. A Microsoft cita estudo ICLR 2025 da Andriushchenko et al. com 100% de Attack Success Rate em GPT-4o, Claude 3 e Llama-3 contra JailbreakBench. Depois do incidente OpenClaw, a Varonis formalizou quatro controles: instrução do agente como política versionada, e-mail outbound com gate de primeira-vez, conector com nível de confiança atrelado à origem, ação arriscada espera humano.

O que é e por que importa agora

Tool call é o verbo central de um agente. O modelo lê o input, decide que precisa executar uma ação (chamar API, mandar mensagem, rodar shell, ler arquivo) e o framework executa. Em quase todo framework até 2025, o controle ficava no prompt ("você é um assistente cuidadoso"). Em 2026 três linhas de evidência tornaram a posição insustentável.

Prompt injection tem 100% de taxa de sucesso contra modelos fronteira. A pesquisa da Andriushchenko et al. na ICLR 2025, referenciada no README do AGT, mostra 100% de ASR em GPT-4o, Claude 3 e Llama-3 contra JailbreakBench. O blog de Red Team da Microsoft de janeiro de 2025 reforça: mitigations do not eliminate risk entirely.

Os ataques reais migraram do modelo pro conector. O caso OpenClaw em junho de 2026 mostra isso. O agente lê um e-mail legítimo de "fornecedor", interpreta o pedido social como instrução do usuário, e executa. Sem prompt malicioso. A Imperva mostrou variante similar: instruções escondidas em campo name de vCard bypassam o display porque o nome aparece truncado na tela, mas o modelo recebe o payload completo. Patch saiu em OpenClaw 2026.4.23, mas a Varonis é explícita: o resto é arquitetura, não wording.

A indústria convergiu na resposta. Em maio de 2026 a AWS adicionou Cedar default-deny ao AgentCore Gateway. Em junho a Microsoft publicou o AGT cobrindo 10/10 do OWASP Agentic Top 10 com SDKs em cinco linguagens. O Show HN do sigmashake apareceu na mesma janela. Policy gate deixou de ser ideia e virou commodity em formação.

Como funciona (sem jargão)

Quatro blocos na ordem em que aparecem.

1. Identifica o agente e a tool call. O gate recebe um struct: qual agente, qual tool, quais argumentos, de onde veio o gatilho. No AGT é o GovernanceKernel, no AgentCore Gateway é o MCP server gerenciado, no sigmashake é o wrapper antes da tool. O objeto é construído em código, não vem de parsing do prompt.

2. Avalia a política. A política é YAML versionado (AGT) ou Cedar (AWS), com regras como "se tool_name == 'send_email' e destinatário nunca visto antes, então require_approval". A avaliação é determinística: mesma entrada, mesma saída, todo dia.

3. Decide allow, deny ou require-approval. allow executa. deny levanta exceção (GovernanceDenied no AGT) e a tool nunca foi chamada. require_approval pausa, enfileira revisão humana (Slack, e-mail, dashboard) e só continua com aprovação explícita. A política pode priorizar regras.

4. Loga tudo, prova depois. Toda decisão vira registro tamper-evident: agente, tool, policy version, decisão, timestamp, contexto. Auditores pedem isso. Reguladores também (a Autoriteit Persoonsgegevens holandesa já recomendou não rodar OpenClaw em sistemas com dado sensível).

Integração no Claude Code via AGT é um plugin marketplace:

/plugin marketplace add microsoft/agent-governance-toolkit
/plugin install agt-governance@agent-governance-toolkit

E governar uma tool qualquer são duas linhas:

from agentmesh.governance import govern
safe_tool = govern(my_tool, policy="policy.yaml")

A partir daí safe_tool(action="drop", table="users") retorna GovernanceDenied e o DROP TABLE nunca roda. Não porque o modelo foi persuadido, mas porque o código não deixou chegar lá.

Comparativo rápido: antes vs agora

AspectoControle no promptControle no frameworkPolicy gate antes do tool call
Onde fica o controleNa instrução do sistemaEm hook/middleware do frameworkEm código determinístico antes da execução
Robustez contra prompt injectionBaixa (100% ASR nos estudos)Média (depende do framework)Alta (gate não lê prompt)
AuditabilidadeLogs do modelo (parciais)Logs do framework (melhor)Logs tamper-evident do gate (padrão)
Verificabilidade formalNenhumaNenhumaCedar/Rego/YAML com verificação matemática
Custo de adicionarZeroZero a algumas horasAlgumas horas de config + uma dependência
Funciona entre vendorsNãoNãoSim (AGT, AgentCore e sigmashake funcionam com qualquer runtime)
Força humano no loop para ação arriscadaNãoNãoSim (gate força require_approval)

A diferença prática: controle no prompt é o que o estagiário faria (pedir educadamente). Controle no framework é o que o tech lead faz (revisar PR). Policy gate é o que o time de segurança faz (não deixa o código rodar). O incidente OpenClaw é exatamente a transição entre as duas primeiras categorias pra terceira.

O que isso muda para o seu negócio

Três perguntas valem ser feitas agora se você roda agente de IA em produção ou está prestes a colocar um.

Seu agente chama API externa, manda e-mail ou mexe em banco? Decida se a próxima falha é "o modelo decidiu errado" (coberto por log de modelo) ou "o modelo decidiu certo mas a decisão foi catastrophica no contexto" (só coberto por gate). O caso OpenClaw é o segundo: o agente decidiu ajudar corretamente o que ele achava ser o usuário. Sem gate, a decisão seguiu. A diferença entre "incidente" e "incidente que vira manchete" está no que a tool call pôde fazer depois de autorizada.

Você tem compliance ou auditor olhando pra esse agente? Gate é mandatório antes do agente ir pra produção. A Autoriteit Persoonsgegevens holandesa já recomendou não rodar OpenClaw em sistemas com dado sensível. LGPD no Brasil (art. 46 sobre medidas de segurança) tem o mesmo formato de exigência. Log tamper-evident + política versionada + decisão determinística é o mínimo que satisfaz auditor sem ambiguidade.

Você está escolhendo entre AGT, AgentCore Gateway, sigmashake ou algo custom? Em junho de 2026 os três são viáveis. AGT se você quer self-host, multi-linguagem e zero lock-in de cloud. AgentCore Gateway se você já está em AWS e quer pagar pelo serviço gerenciado (considere o CVE-2026-3059 do Code Interpreter, em migração de Sandbox pra VPC mode). Sigmashake se você está montando stack próprio e quer começar leve. Os três implementam o mesmo contrato: gate antes do tool call, decisão determinística, log auditável.

A Agendai opera fluxos conversacionais em WhatsApp pra varejo brasileiro onde cada chamada de tool (consultar estoque, abrir ticket, mandar mensagem) passa por um gate simples: budget diário de mensagens por número, allowlist de tools por contexto, pausa automática quando padrão de uso desvia do baseline. Não é AGT nem AgentCore, mas é o mesmo desenho. A diferença é que no WhatsApp o vetor de ataque é mais canalizado (cliente falando com loja, não e-mail inbound de fornecedor aleatório), então gate mínimo resolve 95% dos casos.

Referência natural Agendai

O padrão que AGT, AgentCore e sigmashake materializaram em junho de 2026, "intercepte antes do fio, decida em código, prove depois", é o mesmo padrão que se aplica a qualquer agente de IA em produção rodando ação real sobre sistema real. A Agendai constrói esse tipo de gate em volta dos agentes que implanta em varejo: qual ferramenta cada agente tem permissão de chamar, com qual budget diário, em qual contexto, com qual escalonamento humano quando o padrão desvia. A diferença pra Microsoft, AWS ou open source é que no varejo o gate é desenhado em torno do canal (WhatsApp, voz, chat do e-commerce) e da ação típica (consultar, reservar, cancelar, mandar), não em torno de primitivas genéricas de SO. Se você quer ver um policy gate rodando no seu agente de atendimento, a Agendai implementa em ~2 semanas, e a primeira semana é de graça, sem fidelidade.

Perguntas frequentes

O que é um policy gate pra agente de IA?

É uma camada de código determinístico que intercepta toda tool call antes dela ser executada e decide allow, deny ou require-approval com base em uma política versionada (YAML, Cedar, Rego). Em 2026 três implementações de referência convergiram: o Show HN do sigmashake (junho/2026), o Microsoft Agent Governance Toolkit (preview público, junho/2026) e o AWS Bedrock AgentCore Gateway com Cedar (Summit NY, junho/2026). Conceito é o mesmo de allowlist de syscalls ou firewall de egress, aplicado à interface tool call do agente.

Por que policy gate e não só prompt?

Porque prompt é estatístico e tool call é efeito colateral determinístico. O estudo de Andriushchenko et al. na ICLR 2025 mostra 100% de Attack Success Rate em GPT-4o, Claude 3 e Llama-3 contra JailbreakBench. O blog de Red Team da Microsoft de janeiro de 2025 reforça: "mitigations do not eliminate risk entirely". Controle por prompt é placebo em adversarial setting. Gate move o controle pro código, que é determinístico.

Como funciona um policy gate na prática?

Quatro etapas: (1) identifica o agente, a tool e os argumentos em struct construído em código; (2) avalia a política (YAML no AGT, Cedar na AWS) com regra de prioridade; (3) decide allow, deny ou require_approval; (4) loga tudo com timestamp, política e contexto. Integração no Claude Code via plugin marketplace do AGT, em qualquer agente Python com duas linhas (from agentmesh.governance import govern; safe_tool = govern(my_tool, policy="policy.yaml")), no AWS via AgentCore Gateway configurado com Cedar default-deny.

Quais os riscos de não ter policy gate?

Quatro. Tool call catastrophica após social engineering, como no caso OpenClaw documentado em junho de 2026 pela Varonis onde e-mail convence agente a encaminhar credencial. Falta de audit trail quando incidente acontece, sem log tamper-evident você não sabe qual policy estava ativa. Bloqueio regulatório, a Autoriteit Persoonsgegevens holandesa já recomendou não rodar OpenClaw em sistemas com dado sensível. Ataque via canal confiável, como a injeção via campo name de vCard que aparece truncado na tela mas chega completo pro modelo.

Policy gate substitui outros controles de segurança?

Não. Gate cobre o caminho do tool call, mas não cobre treino do modelo, classificação de input, sandbox de execução ou observabilidade de comportamento. A própria Microsoft lista que AGT cobre 10/10 do OWASP Agentic Top 10, mas explicita que é uma camada entre outras. Em produção maduro, gate coexiste com classificação de input não-confiável, sandbox de execução (o CVE-2026-3059 do AgentCore Code Interpreter mostra que sandbox tem bug também), observabilidade de drift e red teaming contínuo. Gate é o controle que faltava, não o controle único.


Recomendamos também: QodFlow: o kanban onde humanos e agentes de IA mexem no mesmo card e SMS OTP para agentes de IA: o que muda quando o seu bot precisa receber código.

Seu agente de IA precisa de policy gate antes de cada tool call? A Agendai desenha e implementa o controle em ~2 semanas, e a primeira semana é de graça. Fale com a gente.

Tags

policy gateAI agentstool callsMicrosoft AGTAWS Bedrock AgentCoreOpenClawCedarMCPShow HNagent governancezero trust

Quer implementar isso na sua loja?

A Agendai monta dashboards e automações sob medida para o seu negócio. Sem trocar de sistema, sem depender de TI.

Falar com a gente