Harness engineering: o que é e como construir para agentes de IA em 2026

arness engineering: o que é e como construir para agentes de IA em 2026

Em 2026, o modelo de linguagem virou commodity. O que decide se um agente de IA funciona em producao ou quebra na primeira semana nao e GPT-4.1, Claude Sonnet 4.5 ou Gemini 2.5. E a engenharia ao redor dele — o harness. O OpenAI formalizou o termo em abril de 2026, a Microsoft deu o nome de "agent harness" no BUILD 2026 e a Anthropic publicou a Harness Design for Long-Running Application Development com a frase que importa: "todo componente do harness assume que o modelo nao consegue fazer aquilo sozinho. Essas suposicoes expiram." A disciplina de desenhar esse andaime virou cargo. Chama-se harness engineering.

A resposta direta

Harness engineering e a disciplina de projetar o scaffolding em volta de um agente de IA — context delivery, tool design, planning artifacts, verification loops, memory systems, permissions, sandboxes. E o que transforma um demo de 30 segundos em um sistema que lida com 35.000 incidentes de producao por dia, como o Azure SRE Agent da Microsoft, ou que automatiza ranking de anuncios por 6 horas sem perder contexto, como o Ranking Engineer Agent do Meta. Em 2026, model e a materia-prima. Harness e o produto.

O que e e por que importa agora

O awesome-harness-engineering define: "harness engineering e a disciplina de desenhar o andaime — context delivery, tool interfaces, planning artifacts, verification loops, memory systems, sandboxes — que cerca um agente de IA e determina se ele succeed ou falha em tarefas reais." Martin Fowler, em abril de 2026, resumiu em uma equacao: Agent = Model + Harness. Tudo que nao e modelo e harness. E em 2026, o harness e o que esta diferente.

Tres sinais de que a onda nao e gratuita:

1. O gargalo mudou de lugar. Em 2023, o problema era "o LLM nao raciocina direito". Em 2026, Claude Sonnet 4.5 raciocina tao bem que o gargalo real e "como entrego o contexto certo, na ordem certa, com as permissoes certas, no ambiente certo". A Microsoft publicou em BUILD 2026 que o agent harness e "a camada onde o raciocinio do modelo encontra a execucao real: shell, filesystem, human-in-the-loop approval flows, context management across long-running sessions." A LangChain alerta para "context rot" — contextos muito longos degradam a performance do modelo. A solucao e harness: compaction, prioritization, retrieval, pruning. Coisa que o modelo sozinho nao faz.

2. A industria publicou cases massivos. O Azure SRE Agent lidou com 35.000+ incidentes de producao autonomamente e reduziu o tempo medio de mitigacao no Azure App Service de 40,5 horas para 3 minutos. O Ranking Engineer Agent do Meta roda pipelines de ML multi-dia com checkpointing de hibernate-and-wake para retomar tarefas de 6 horas interrompidas. Casos assim dependem de harness, nao de modelo melhor. Um modelo melhor sem harness nao escala; um harness decente com modelo bom escala.

3. A "disciplina" virou disciplina. Tem curso (Learn Harness Engineering), tem livros brancos (Microsoft Agent Framework, Anthropic Harness Design series, Martin Fowler), tem awesome list com 12 design primitives catalogadas, tem Anthropic Hackathon Winner com 140K estrelas. Em 2024 a discussao era "como fazer o agente". Em 2026 e "como fazer o andaime do agente".

Como funciona (sem jargao)

A anatomia canonica, consolidada pela LangChain e pela awesome-harness-engineering, lista 12 componentes que todo harness de producao precisa resolver. Nem todo agente precisa dos 12 — mas o conjunto forma o vocabulario comum.

1. Agent loop. A estrutura Thought/Action/Observation que o paper ReAct de 2022 definiu. O coracao: o agente pensa, age, observa, repete. O harness embrulha o loop com timeout, retry, cancelamento.

2. Planning & task decomposition. Artefatos persistentes como Plan.md, Implement.md, Documentation.md (formalizados pelo OpenAI para long-horizon tasks). O agente nao e o planner — o harness guarda o plano em arquivo e o modelo consulta.

3. Context delivery & compaction. Janela de contexto nao e infinita. O harness decide o que entra, em que ordem, com que prioridade. Quando estoura, ele compacta: resume, poda, recupera. A LangChain chama de "context rot" o efeito de contexto longo degradando performance.

4. Tool design. Tools sao UX do agente. O Anthropic publicou o guia canonico: nome claro, schema explicito, mensagens de erro otimizadas para LLM consumir, retorno estruturado. Tool mal desenhada e a primeira causa de agente que alucina.

5. Skills & MCP. O Model Context Protocol padronizou como o agente conversa com ferramentas externas. MCP virou o USB-C de harnesses.

6. Permissions & authorization. O Anthropic publicou o Beyond Permission Prompts argumentando que permissao por prompt de linguagem natural e inseguro. Harness serio tem PermissionChecker estruturado, com allow/deny lists, protecao de paths sensiveis, scopes por tool.

7. Memory & state. Tres tipos: in-context (prompt), external (banco/arquivo), procedural (skills/plugins). O harness decide o que lembrar entre sessoes. Sem memory, o agente recomeca do zero a cada task. Com memory mal desenhada, ele vira bola de neve de contexto irrelevante.

8. Task runners & orchestration. Queueing, paralelismo, retries, progresso. Quando voce tem 50 agents rodando, o harness coordena. O OpenHarness v0.1.6 (abril/2026) introduziu Auto-Compaction para sessoes multi-dia.

9. Verification & CI integration. O harness roda testes, linters, type-checks. A Anthropic, no Demystifying Evals for AI Agents, alerta: unit tests de agente nao funcionam como unit tests de codigo. O harness precisa de eval loop proprio.

10. Observability & tracing. Cada inferencia, cada tool call, cada decisao do agente gera um span. O OpenLLMetry integra com OpenTelemetry/Grafana/Datadog. Sem tracing, debug de agente em producao e adivinhacao.

11. Debugging & developer experience. Replay de sessoes, diff de outputs, custo por chamada, failure detection. O AgentOps e o exemplo mais usado — funciona com CrewAI, LangGraph, OpenAI Agents SDK.

12. Human-in-the-loop. Approval para acoes sensiveis. A AWS publicou 4 padroes de HITL em marco/2026: Hook System (politica central), Tool Context (escopo por tool), Step Functions (aprovacao async), MCP Elicitation (aprovacao em tempo real via protocolo).

Os 12 nao sao checklist obrigatorio. Sao vocabulario. Cada projeto combina os que precisa e adiciona os proprios. O criterio util de Fowler: harness se divide em guides (feedforward, antecipam o comportamento do agente) e sensors (feedback, observam o resultado). Os dois juntos. Um sem o outro vira agente que repete os mesmos erros, ou agente que segue regras sem saber se funcionam.

Comparativo rapido: antes vs agora

Dois exemplos lado a lado, mesmo problema, com e sem harness.

Agente de atendimento que faz follow-up de vendas em varejo:

| Aspecto | Sem harness (2024) | Com harness (2026) | |---|---|---| | Cliente pedindo cancelamento | Modelo decide sozinho, manda mensagem, cliente chateado | Permissao HITL ativa para cancelamento; agente abre ticket e para | | Memoria entre sessoes | Prompt re-injetado a cada chamada | Memory layer persistido por customer_id | | Tool para consultar pedido | SELECT * FROM orders | Tool get_order_summary(id) com campos nomeados, sem PII desnecessario | | Custo por conversa | $0.12 (tokens do dump do banco) | $0.018 (tool com projecao, contexto focado) | | Resolucao no primeiro turno | 35% dos casos | 60%+ dos casos |

Coding agent gerando refactor em monorepo:

| Aspecto | Sem harness (2024) | Com harness (2026) | |---|---|---| | Onde editar | Modelo grep + escolhe arquivo | Harness da lich.yaml que isola dev stack por worktree | | Memoria do que ja tentou | Apaga a cada turno | Plan.md persistido com historico de tentativas falhas | | Validar refactor | Roda npm test se lembrar | CI integration: linter + type-check + test suite por tool call | | Quando escalar pra humano | Modelo decide sozinho parar | HITL detecta "acao irreversivel" e pede aprovacao antes de merge |

A diferenca nao e "o modelo ficou melhor". E a mesma qualidade de modelo embrulhada em 12 componentes de producao.

O que isso muda para o seu negocio

Se voce roda agente de IA em producao, tres consequencias praticas em 2026:

1. Cargo novo: harness engineer. A vaga existe desde marco/2026. Perfil hibrido: dev senior de plataforma + conhecimento de LLM ops. No Brasil, faixa salarial de R$ 18k a R$ 35k/mensal. Se voce tem 2+ agentes em producao, precisa de pelo menos 1 pessoa dedicada. E nao terceirizavel para o vendor do modelo — vendor entrega modelo, nao harness.

2. A escolha de framework importa menos que a de harness. Em 2026, a maioria dos frameworks (Microsoft Agent Framework, LangGraph, Deep Agents, OpenAI Agents SDK) entrega qualidade similar para a logica. O que diferencia producao de demo e o harness. Dois times usando o mesmo modelo e mesmo framework, com harness diferente, terao resultados 3-5x diferentes em confiabilidade. O harness e onde o dinheiro vai.

3. Custo de implementacao caiu, mas nao para zero. Open source maduro: OpenHarness (MIT, 12 design primitives), withastro/flue (MIT, sessao de estado), everything-claude-code (MIT, 140K+ estrelas). Para um time de 3-4 devs senior, 4 a 8 semanas para harness completo. Vendor pago: R$ 8k a R$ 30k/mes dependendo de volume.

Onde nao faz sentido: 1 agente, 5 chamadas por dia, falha custa 5 minutos de retrabalho humano. Ate 10 chamadas/dia, framework sem harness resolve. Acima de 100, harness vira obrigacao. ROI tipico em 3 meses.

Limites honestos

Harness assume modelo razoavelmente bom. Se o modelo e fraco, harness nao conserta. Claude Haiku com 12 componentes de harness ainda perde para Claude Sonnet 4.5 com framework simples.
Co-evolucao modelo-harness e real. A LangChain alerta no Anatomy of an Agent Harness que modelos treinados com harness especifico podem ficar overfit. Trocar de modelo depois exige revisar harness.
Custo de manutencao nao para. Componente de harness nao e "instala e esquece". Permissoes precisam revisar, memory precisa podar, evals precisam re-rodar, otel precisa atualizar. 10-20% do tempo de quem mantem vai para o harness.
Ecosistema jovem. Microsoft formalizou o termo em maio/2026. Poucos vendors tem track record multi-ano. O risco de vendor sumir e real — escolha projeto com licenca permissiva e codigo aberto quando possivel.

Nada disso tira a conclusao: em 2026, harness engineering e a fronteira. A Amazon, Microsoft, Meta, Anthropic, OpenAI ja tem times dedicados. Quem esta construindo agente de IA em 2026 sem pensar em harness esta construindo o demo, nao o produto.

Referencia natural Agendai

A Agendai constroi agentes de IA para varejo brasileiro. Cada cliente nosso roda agentes diferentes (follow-up de vendas, deteccao de ruptura de estoque, BI automatico, atendimento pos-venda) sobre o mesmo conjunto de componentes de harness. O que funciona em producao: tools com schema explicito, permissao HITL para acoes que mexem em pedido/cliente, memory por customer_id, eval loop rodando a cada deploy, tracing OpenTelemetry com painel no Grafana. Em uma loja de cosmeticos com 8 mil clientes, a taxa de follow-up concluido no primeiro turno subiu de 28% para 71% em 4 meses — e a maior parte do ganho veio de reescrever as tools, nao do modelo. Harness engineering na pratica.

Perguntas frequentes

O que e harness agent?

Harness agent e o conjunto de componentes de software que envolve o modelo de linguagem e permite que ele execute tarefas reais com seguranca: contexto, tools, permissoes, memoria, verificacao, observabilidade. O termo foi formalizado pela Microsoft no BUILD 2026 e pela OpenAI em abril/2026. A LangChain define cinco primitivos (filesystem, code execution, sandbox, memory, context management) e o awesome-harness-engineering cataloga 12 design primitives que todo harness de producao precisa resolver.

Como harness agent funciona na pratica?

O harness intercepta cada acao que o agente quer executar, valida contra politica de permissoes, executa dentro de sandbox, loga para auditoria, e em casos sensiveis pede aprovacao humana. O Azure SRE Agent da Microsoft opera assim: 35.000+ incidentes de producao resolvidos autonomamente, com human-in-the-loop em acoes irreversiveis. A Anthropic publicou o guia de design mostrando que tool design e UX do agente — nome, schema, mensagem de erro determinam se o agente chama a tool certo ou alucina.

Quanto custa implementar harness agent?

Custo zero de software nos projetos open source (OpenHarness, withastro/flue, everything-claude-code sao MIT). O custo real e engenharia: 4 a 8 semanas de 3-4 devs senior para implementar os 12 componentes em producao. Vendor com suporte pago (Microsoft Agent Harness, Anthropic Claude Agent SDK): R$ 8k a R$ 30k/mes dependendo do volume de execucao. Em caso de varejo, ROI tipico em 3 meses — taxa de conclusao no primeiro turno costuma subir de 30% para 60%+.

Quais os riscos de harness agent?

Tres riscos reais. Primeiro: harness mal configurado vaza permissoes. Mitigacao: PermissionChecker estrito, red team, revisao humana em acoes destrutivas. Segundo: harness lento vira gargalo. Mitigacao: paralelizar checagens, cachear decisoes, observabilidade por tool. Terceiro: harness que loga de menos esconde incidentes. Mitigacao: logs imutaveis, alertas de anomalia. A Anthropic e a AWS (HITL patterns) publicaram frameworks especificos para mitigar cada um.

Harness agent substitui funcionarios?

Nao. Harness agent executa a infraestrutura que permite ao agente trabalhar com seguranca. A logica de negocio, o tom de comunicacao, a politica de desconto, a decisao de caso atipico continuam sendo responsabilidade humana. O que muda: tarefas repetitivas (follow-up, FAQ, alerta) ficam viaveis de automatizar com seguranca. Em um time de 5 pessoas no varejo, o ganho tipico e 1 pessoa deslocada de tarefa mecanica para tarefa de excecao. Nao e substituicao; e realocacao.

Recomendamos tambem: Agent harness vs agent framework: qual a diferenca e quando usar cada um e O que e MCP (Model Context Protocol) e por que vai mudar os agentes de IA.

Quer construir um harness de agente de IA para o seu negocio sem virar refem de vendor? A Agendai implementa em ~2 semanas — a primeira semana e de graca, sem fidelidade. Fale com a gente.