A Agendai é uma consultoria brasileira de inteligência artificial focada em varejo. Implementa agentes de IA, CRM, automação de WhatsApp, BI e detecção de fraude para PMEs de moda, joias, beleza, restaurantes e food service que faturam entre R$ 500 mil e R$ 50 milhões por ano.

Para quem a Agendai é indicada?

Lojas de varejo de moda, joias, acessórios e beleza; restaurantes, cafeterias e food service; imobiliárias pequenas e médias; PMEs brasileiras em geral com operação repetitiva via WhatsApp. Faturamento entre R$ 500 mil e R$ 50 milhões por ano.

Quanto custa implementar agentes de IA da Agendai?

Os valores variam conforme o escopo e a complexidade. Um agente de atendimento no WhatsApp parte de R$ 1.500/mês com setup entre R$ 3.000 e R$ 8.000. Pacotes completos com CRM, BI e múltiplos agentes sob consulta.

Em quanto tempo a Agendai implementa um agente de IA?

Entre 10 e 20 dias úteis para um agente de atendimento em WhatsApp. Casos com integração a múltiplos ERPs ou fluxos mais complexos podem levar até 30 dias. O primeiro mês roda em modo de supervisão humana para calibrar a IA antes de operar com mais autonomia.

A Agendai substitui o contador, o vendedor, o atendente?

Não. A Agendai implementa agentes de IA que cuidam do trabalho repetitivo e operacional — responder as 200 mensagens do dia, qualificar leads, enviar follow-up, conferir estoque, sinalizar fraude. O profissional humano continua no comando: negocia, decide, atende o que é sensível, fecha venda de alto valor. É atendimento híbrido: IA faz o trabalho chato, humano faz o trabalho que importa.

GPU de garagem: 4x RTX 3090 usadas rodando LLM por R$30/mês, sem assinatura de API

Em junho de 2026, o relato publicado no iMil.net sobre 4x RTX 3090 usadas rodando Qwen 3.6 27B a 80+ tokens por segundo é o sinal mais nítido de uma virada que PMEs brasileiras precisam entender: dá pra rodar um modelo de 27 bilhões de parâmetros em casa, pagando o que se paga de assinatura de Netflix, e ter IA ilimitada, sem rate limit, sem mudança de plano, sem medo de fatura surpresa. O custo de entrada é alto (as GPUs usadas), mas o custo marginal por mês em 2026 é R$25-35 de conta de luz, contra R$250-1500/mês de API tier. A conta fecha quando o uso é constante.

Resposta direta

Em 2026, montar uma rig caseira com 4x RTX 3090 usadas (96GB de VRAM total) custa R$8-14 mil no mercado de usados e roda modelos open-source de 27B a 70B parâmetros a 60-80 tokens por segundo o suficiente pra uso real em produção: atendimento, classificação, sumarização, geração de resposta de WhatsApp. O custo mensal de operação fica em R$25-35 de energia elétrica (650W médio, R$0,90/kWh), sem assinatura, sem rate limit, sem dependência de fornecedor. Comparado com Grok SuperGrok a US$30/mês (R$150) com limite de uso ou Claude Max a US$200/mês (R$1000) ou aluguel de H100 a US$1,38/hora (R$1.380/mês rodando 24/7 conforme Thunder Compute), o payback para uso intenso cai em 6-12 meses. O trade-off: barreira técnica alta, suporte zero, e você vira dono do problema de hardware.

O que é e por que importa agora

O hardware em questão é a NVIDIA RTX 3090, lançada em 2020 por US$1.499 e hoje (junho de 2026) encontrada no mercado brasileiro de usados entre R$1.800 e R$3.500 dependendo do estado. Ela tem 24GB de VRAM GDDR6X, que é o gargalo para rodar modelos grandes: LLM de 27B em quantização Q8 precisa de ~22GB, cabe em uma 3090. LLM de 70B em Q4 precisa de ~40GB, cabe em duas. Quatro 3090 em paralelo (96GB) rodam Qwen 3.6 70B Q4 a 60-80 tokens por segundo, o que é velocidade de leitura humana, suficiente para atendimento conversacional e geração em batch.

Três motivos pelos quais isso virou relevante em 2026:

1. Modelos open-source fecharam a lacuna de qualidade com modelos pagos em tarefas reais. O Qwen 3.6 27B Q8 (benchmark independente em junho de 2026) pontua 78% no MT-Bench, contra 82% do Claude 4 Sonnet e 76% do GPT-4.1. A diferença de 4-6 pontos percentuais importa em 10% dos casos (revisão de código crítico, síntese jurídica, decisão clínica). Nos outros 90% (atendimento, classificação, sumarização, geração de copy, análise de planilha), a diferença é invisível para o usuário final. O post anterior sobre agentes de IA para varejo discute especificamente a categoria de tarefas onde o modelo pequeno local já resolve.

2. APIs pagas subiram de preço enquanto APIs "ilimitadas" introduziram rate limits. A Anthropic anunciou em maio de 2026 que todo acesso ao Claude Mythos 5 em plano de assinatura consumiria de um pool de créditos com detalhes ainda não publicados. O Grok SuperGrok segue a US$30/mês mas com janela de 128K tokens por sessão, insuficiente para análise de base de dados. OpenAI, Google, e Anthropic estão migrando de "ilimitado" para "ilimitado com rate limit de uso justo", o que é o começo do fim do modelo de assinatura flat.

3. Energia elétrica no Brasil ainda é barata relativamente. R$0,80-1,00 por kWh em tarifa residencial em 2026 (ANEEL, bandeira verde). Uma rig de 4x 3090 puxa 650W médios, isso é R$0,65 por hora, R$15,60 por dia se rodar 24/7, R$470 por mês se rodar 30 dias. Mas o uso real de PME raramente é 24/7: 8-12 horas por dia útil, fim de semana desligado, dá R$130-200/mês. Com otimização (batch de madrugada, modelo pequeno para triagem), cai para R$70-100/mês. Ainda mais barato que aluguel de H100.

Como funciona (sem jargão)

Três caminhos práticos em junho de 2026, do mais fácil ao mais difícil:

Caminho 1: Alugar GPU de outro, marketplace peer-to-peer. Plataformas como Vast.ai, Salad, e RunPod permitem alugar GPUs de fornecedores individuais a US$0,15-0,40/hora para RTX 3090, ou US$0,78-1,38/hora para A100/H100 conforme a comparação de mercado de junho de 2026. O guia do EarnifyHub explica o lado oposto: como alugar sua própria GPU para outros ganhar US$50-200/mês passivo. Para quem quer testar antes de comprar hardware, esse é o caminho. O teste comparativo do DEV.to com 9 provedores serverless em 2026 concluiu que RunPod e Vast.ai saem na frente para inferência de LLM por custo/preço. Custo típico: US$0,30/hora rodando 12 horas por dia = US$108/mês (R$540).

Caminho 2: Montar a rig em casa. O guia do iMil.net documenta o build que viralizou: RTX 5080 nova (R$8-10 mil) + 3x RTX 3090 usadas (R$6-9 mil) + placa-mãe com 4 slots PCIe + 128GB RAM DDR5 + fonte 1600W + gabinete aberto. Custo total R$18-25 mil. Software: Ollama (grátis) para inferência local, ou vLLM (grátis) para alta vazão. Modelo: Qwen 3.6 27B Q8 rodando local, Llama 4 Scout, Gemma 3, ou DeepSeek V3 67B Q4. Não precisa de internet para funcionar, mas precisa de conhecimento Linux, configuração de driver NVIDIA, e paciência para debugging. A análise de build de PC para IA local defende que dá para começar com uma única 3090 e ir expandindo conforme a demanda aparecer.

Caminho 3: Híbrido — local para triagem, API para o difícil. É o caminho que PMEs brasileiras inteligentes estão escolhendo em 2026. Roda modelo pequeno local (Qwen 3.6 7B Q8, 8GB VRAM) para triagem e classificação — custa R$30/mês de energia. Quando a tarefa exige raciocínio complexo (análise de contrato, geração de relatório executivo), chama API paga só para aquele caso. O guia de workstation da BuildEZ para 2026 mostra builds balanceados a partir de R$5 mil que rodam essa estratégia. Resultado típico: 70% do tráfego em local (custo zero de API), 30% em API (custo R$200-500/mês dependendo do volume).

Comparativo rápido: antes vs agora

Cenário	Modelo 2024 (API pura)	Modelo 2026 (rig local + API híbrida)
Atendimento WhatsApp (50k msgs/mês)	R$1.500/mês OpenAI tier 4	R$300/mês energia + R$200/mês API fallback = R$500/mês
Análise de planilha de vendas	R$0,10 por chamada, 5 mil chamadas = R$500	Modelo local Qwen 27B Q8, custo marginal zero
Geração de copy de e-commerce	R$0,05 por peça, 10 mil = R$500	Modelo local 7B, custo marginal zero
Pesquisa jurídica complexa	R$2.000/mês Claude Max	Local: R$200/mês energia; API: R$300 para 200 chamadas críticas
Chatbot de FAQ	R$400/mês OpenAI tier 2	Local Qwen 7B: R$30/mês energia
Modelo grande de raciocínio (70B)	R$3.000/mês aluguel H100 24/7	R$700/mês aluguel pontual, ou rig local R$200/mês energia

A linha que une: em 2024, dependia de assinatura mensal de fornecedor. Em 2026, escolha a cada chamada se quer local (barato, lento, modelo limitado) ou API (caro, rápido, modelo topo).

O que isso muda para o seu negócio

Três mudanças concretas para PME brasileira em 2026:

1. Calcule custo de IA por uso, não por assinatura. O erro mais comum é assinar Claude Max ou ChatGPT Pro achando que é "ilimitado" e descobrir em 3 meses que o rate limit corta no meio do expediente. A mudança de modelo da Anthropic em junho de 2026 sinaliza que esse problema vai piorar. Faça a conta por chamada ou por tokens, compare com custo de rig local amortizado em 12 meses, e descubra o ponto de virada. Para PME que passa de 1 milhão de tokens por mês, a rig local geralmente vence.

2. Comece com aluguel, só compre hardware se o uso justificar. O caminho mais barato em 2026 é: (a) comece com Vast.ai ou RunPod, US$0,30/hora, teste 30 dias; (b) meça tokens por dia e custo mensal; (c) se passar de R$500/mês consistente, avalie rig; (d) rig de R$15 mil se paga em 30 meses a essa taxa, e ainda sobra como ativo revendável. Quem pula direto para comprar hardware sem medir uso geralmente paga caro por uma rig que fica ociosa 80% do tempo.

3. Self-hosted exige governança que assinatura esconde. Quando você roda modelo local, ninguém te avisa se ele ficou desatualizado, se o output ficou tendencioso, se a latência degradou. Precisa de: log de chamadas, comparação periódica de qualidade vs API paga, política de quando retreinar ou trocar modelo, plano de contingência se a rig queimar. A análise da BuildEZ para 2026 estima 1-2 horas por mês de manutenção para uma rig caseira. Para PME sem time técnico, melhor manter API híbrida e deixar o fornecedor pagar a conta de manutenção.

Referência natural Agendai

Na Agendai a gente aplica essa lógica de custo de IA em três frentes: (1) agente de atendimento em WhatsApp roda modelo 7B local em servidor da loja para triagem (R$30/mês de energia) e só chama API externa quando o cliente pede algo que exige raciocínio mais profundo; (2) análise de base de pedidos faz em batch noturno em modelo local 27B, custo marginal zero, em vez de passar por API que cobraria por linha processada; (3) prototipagem rápida usa Ollama em laptop do operador com uma 3090 emprestada, valida o caso antes de decidir se vale o investimento em rig dedicada. O pacote típico começa com diagnóstico de qual workload da PME realmente precisa de IA (a maioria não precisa, e dos que precisam, 70% rodam em modelo pequeno), passa por estimativa de custo em três cenários (API pura, aluguel, rig local), e termina com plano de 90 dias para implementação do caminho escolhido. Primeira semana é de graça, sem fidelidade. Mais em agendai.cc.

Perguntas frequentes

Quanto custa montar uma rig de 4x RTX 3090 em 2026? Entre R$8 mil e R$14 mil para as GPUs usadas, mais R$4-6 mil para placa-mãe, fonte, gabinete, RAM e SSD. Total R$12-20 mil dependendo do estado das GPUs e negociação. Fonte: guia do iMil.net de junho de 2026.

Vale a pena comparado com assinatura de Claude ou ChatGPT? Depende do volume. Abaixo de 1 milhão de tokens por mês, assinatura é mais barata e exige zero manutenção. Acima de 3-5 milhões de tokens por mês, rig local se paga em 12-18 meses e ainda fica como ativo. A mudança de precificação da Anthropic em junho de 2026 reduziu a previsibilidade de assinaturas, o que aumenta o argumento a favor de rig própria para uso intenso.

Quais modelos dá pra rodar em 4x 3090? Qwen 3.6 70B em Q4 quantização (60-80 tok/s), Llama 4 Scout 109B em Q4 (30-40 tok/s), DeepSeek V3 67B em Q4 (50-70 tok/s), ou dois modelos 27B Q8 simultâneos para multi-agent. A lista atualizada está no guia de modelos open-source de 2026 e a análise comparativa da TECHSY com 8 modelos testados.

Quanto de energia uma rig de 4x 3090 gasta por mês? 650W médios em inferência, R$0,80-1,00 por kWh no Brasil, 8-12 horas por dia útil, R$130-200/mês. Se rodar 24/7 com otimização de batch noturno, R$350-450/mês. Comparado com aluguel de H100 a US$1,38/hora 24/7 que dá R$3.000/mês, é economia real. Fonte: análise de mercado de GPU rental de junho de 2026.

Self-hosted é arriscado para PME sem time técnico? Sim, se for o caminho principal. A recomendação pragmática: use Ollama em laptop para prototipar, alugue Vast.ai/RunPod para produção inicial em volume baixo/médio, só migre para rig dedicada quando tiver uso consistente acima de R$500/mês em API. Quem pula para rig sem ter quem mantenha geralmente abandona em 6 meses. O guia comparativo de provedores serverless de 2026 mostra as opções intermediárias antes de chegar na rig.