Em junho de 2026, o relato publicado no iMil.net sobre 4x RTX 3090 usadas rodando Qwen 3.6 27B a 80+ tokens por segundo é o sinal mais nítido de uma virada que PMEs brasileiras precisam entender: dá pra rodar um modelo de 27 bilhões de parâmetros em casa, pagando o que se paga de assinatura de Netflix, e ter IA ilimitada, sem rate limit, sem mudança de plano, sem medo de fatura surpresa. O custo de entrada é alto (as GPUs usadas), mas o custo marginal por mês em 2026 é R$25-35 de conta de luz, contra R$250-1500/mês de API tier. A conta fecha quando o uso é constante.
Resposta direta
Em 2026, montar uma rig caseira com 4x RTX 3090 usadas (96GB de VRAM total) custa R$8-14 mil no mercado de usados e roda modelos open-source de 27B a 70B parâmetros a 60-80 tokens por segundo o suficiente pra uso real em produção: atendimento, classificação, sumarização, geração de resposta de WhatsApp. O custo mensal de operação fica em R$25-35 de energia elétrica (650W médio, R$0,90/kWh), sem assinatura, sem rate limit, sem dependência de fornecedor. Comparado com Grok SuperGrok a US$30/mês (R$150) com limite de uso ou Claude Max a US$200/mês (R$1000) ou aluguel de H100 a US$1,38/hora (R$1.380/mês rodando 24/7 conforme Thunder Compute), o payback para uso intenso cai em 6-12 meses. O trade-off: barreira técnica alta, suporte zero, e você vira dono do problema de hardware.
O que é e por que importa agora
O hardware em questão é a NVIDIA RTX 3090, lançada em 2020 por US$1.499 e hoje (junho de 2026) encontrada no mercado brasileiro de usados entre R$1.800 e R$3.500 dependendo do estado. Ela tem 24GB de VRAM GDDR6X, que é o gargalo para rodar modelos grandes: LLM de 27B em quantização Q8 precisa de ~22GB, cabe em uma 3090. LLM de 70B em Q4 precisa de ~40GB, cabe em duas. Quatro 3090 em paralelo (96GB) rodam Qwen 3.6 70B Q4 a 60-80 tokens por segundo, o que é velocidade de leitura humana, suficiente para atendimento conversacional e geração em batch.
Três motivos pelos quais isso virou relevante em 2026:
1. Modelos open-source fecharam a lacuna de qualidade com modelos pagos em tarefas reais. O Qwen 3.6 27B Q8 (benchmark independente em junho de 2026) pontua 78% no MT-Bench, contra 82% do Claude 4 Sonnet e 76% do GPT-4.1. A diferença de 4-6 pontos percentuais importa em 10% dos casos (revisão de código crítico, síntese jurídica, decisão clínica). Nos outros 90% (atendimento, classificação, sumarização, geração de copy, análise de planilha), a diferença é invisível para o usuário final. O post anterior sobre agentes de IA para varejo discute especificamente a categoria de tarefas onde o modelo pequeno local já resolve.
2. APIs pagas subiram de preço enquanto APIs "ilimitadas" introduziram rate limits. A Anthropic anunciou em maio de 2026 que todo acesso ao Claude Mythos 5 em plano de assinatura consumiria de um pool de créditos com detalhes ainda não publicados. O Grok SuperGrok segue a US$30/mês mas com janela de 128K tokens por sessão, insuficiente para análise de base de dados. OpenAI, Google, e Anthropic estão migrando de "ilimitado" para "ilimitado com rate limit de uso justo", o que é o começo do fim do modelo de assinatura flat.
3. Energia elétrica no Brasil ainda é barata relativamente. R$0,80-1,00 por kWh em tarifa residencial em 2026 (ANEEL, bandeira verde). Uma rig de 4x 3090 puxa 650W médios, isso é R$0,65 por hora, R$15,60 por dia se rodar 24/7, R$470 por mês se rodar 30 dias. Mas o uso real de PME raramente é 24/7: 8-12 horas por dia útil, fim de semana desligado, dá R$130-200/mês. Com otimização (batch de madrugada, modelo pequeno para triagem), cai para R$70-100/mês. Ainda mais barato que aluguel de H100.
Como funciona (sem jargão)
Três caminhos práticos em junho de 2026, do mais fácil ao mais difícil:
Caminho 1: Alugar GPU de outro, marketplace peer-to-peer. Plataformas como Vast.ai, Salad, e RunPod permitem alugar GPUs de fornecedores individuais a US$0,15-0,40/hora para RTX 3090, ou US$0,78-1,38/hora para A100/H100 conforme a comparação de mercado de junho de 2026. O guia do EarnifyHub explica o lado oposto: como alugar sua própria GPU para outros ganhar US$50-200/mês passivo. Para quem quer testar antes de comprar hardware, esse é o caminho. O teste comparativo do DEV.to com 9 provedores serverless em 2026 concluiu que RunPod e Vast.ai saem na frente para inferência de LLM por custo/preço. Custo típico: US$0,30/hora rodando 12 horas por dia = US$108/mês (R$540).
Caminho 2: Montar a rig em casa. O guia do iMil.net documenta o build que viralizou: RTX 5080 nova (R$8-10 mil) + 3x RTX 3090 usadas (R$6-9 mil) + placa-mãe com 4 slots PCIe + 128GB RAM DDR5 + fonte 1600W + gabinete aberto. Custo total R$18-25 mil. Software: Ollama (grátis) para inferência local, ou vLLM (grátis) para alta vazão. Modelo: Qwen 3.6 27B Q8 rodando local, Llama 4 Scout, Gemma 3, ou DeepSeek V3 67B Q4. Não precisa de internet para funcionar, mas precisa de conhecimento Linux, configuração de driver NVIDIA, e paciência para debugging. A análise de build de PC para IA local defende que dá para começar com uma única 3090 e ir expandindo conforme a demanda aparecer.
Caminho 3: Híbrido — local para triagem, API para o difícil. É o caminho que PMEs brasileiras inteligentes estão escolhendo em 2026. Roda modelo pequeno local (Qwen 3.6 7B Q8, 8GB VRAM) para triagem e classificação — custa R$30/mês de energia. Quando a tarefa exige raciocínio complexo (análise de contrato, geração de relatório executivo), chama API paga só para aquele caso. O guia de workstation da BuildEZ para 2026 mostra builds balanceados a partir de R$5 mil que rodam essa estratégia. Resultado típico: 70% do tráfego em local (custo zero de API), 30% em API (custo R$200-500/mês dependendo do volume).
Comparativo rápido: antes vs agora
| Cenário | Modelo 2024 (API pura) | Modelo 2026 (rig local + API híbrida) |
|---|---|---|
| Atendimento WhatsApp (50k msgs/mês) | R$1.500/mês OpenAI tier 4 | R$300/mês energia + R$200/mês API fallback = R$500/mês |
| Análise de planilha de vendas | R$0,10 por chamada, 5 mil chamadas = R$500 | Modelo local Qwen 27B Q8, custo marginal zero |
| Geração de copy de e-commerce | R$0,05 por peça, 10 mil = R$500 | Modelo local 7B, custo marginal zero |
| Pesquisa jurídica complexa | R$2.000/mês Claude Max | Local: R$200/mês energia; API: R$300 para 200 chamadas críticas |
| Chatbot de FAQ | R$400/mês OpenAI tier 2 | Local Qwen 7B: R$30/mês energia |
| Modelo grande de raciocínio (70B) | R$3.000/mês aluguel H100 24/7 | R$700/mês aluguel pontual, ou rig local R$200/mês energia |
A linha que une: em 2024, dependia de assinatura mensal de fornecedor. Em 2026, escolha a cada chamada se quer local (barato, lento, modelo limitado) ou API (caro, rápido, modelo topo).
O que isso muda para o seu negócio
Três mudanças concretas para PME brasileira em 2026:
1. Calcule custo de IA por uso, não por assinatura. O erro mais comum é assinar Claude Max ou ChatGPT Pro achando que é "ilimitado" e descobrir em 3 meses que o rate limit corta no meio do expediente. A mudança de modelo da Anthropic em junho de 2026 sinaliza que esse problema vai piorar. Faça a conta por chamada ou por tokens, compare com custo de rig local amortizado em 12 meses, e descubra o ponto de virada. Para PME que passa de 1 milhão de tokens por mês, a rig local geralmente vence.
2. Comece com aluguel, só compre hardware se o uso justificar. O caminho mais barato em 2026 é: (a) comece com Vast.ai ou RunPod, US$0,30/hora, teste 30 dias; (b) meça tokens por dia e custo mensal; (c) se passar de R$500/mês consistente, avalie rig; (d) rig de R$15 mil se paga em 30 meses a essa taxa, e ainda sobra como ativo revendável. Quem pula direto para comprar hardware sem medir uso geralmente paga caro por uma rig que fica ociosa 80% do tempo.
3. Self-hosted exige governança que assinatura esconde. Quando você roda modelo local, ninguém te avisa se ele ficou desatualizado, se o output ficou tendencioso, se a latência degradou. Precisa de: log de chamadas, comparação periódica de qualidade vs API paga, política de quando retreinar ou trocar modelo, plano de contingência se a rig queimar. A análise da BuildEZ para 2026 estima 1-2 horas por mês de manutenção para uma rig caseira. Para PME sem time técnico, melhor manter API híbrida e deixar o fornecedor pagar a conta de manutenção.
Referência natural Agendai
Na Agendai a gente aplica essa lógica de custo de IA em três frentes: (1) agente de atendimento em WhatsApp roda modelo 7B local em servidor da loja para triagem (R$30/mês de energia) e só chama API externa quando o cliente pede algo que exige raciocínio mais profundo; (2) análise de base de pedidos faz em batch noturno em modelo local 27B, custo marginal zero, em vez de passar por API que cobraria por linha processada; (3) prototipagem rápida usa Ollama em laptop do operador com uma 3090 emprestada, valida o caso antes de decidir se vale o investimento em rig dedicada. O pacote típico começa com diagnóstico de qual workload da PME realmente precisa de IA (a maioria não precisa, e dos que precisam, 70% rodam em modelo pequeno), passa por estimativa de custo em três cenários (API pura, aluguel, rig local), e termina com plano de 90 dias para implementação do caminho escolhido. Primeira semana é de graça, sem fidelidade. Mais em agendai.cc.
Perguntas frequentes
Quanto custa montar uma rig de 4x RTX 3090 em 2026? Entre R$8 mil e R$14 mil para as GPUs usadas, mais R$4-6 mil para placa-mãe, fonte, gabinete, RAM e SSD. Total R$12-20 mil dependendo do estado das GPUs e negociação. Fonte: guia do iMil.net de junho de 2026.
Vale a pena comparado com assinatura de Claude ou ChatGPT? Depende do volume. Abaixo de 1 milhão de tokens por mês, assinatura é mais barata e exige zero manutenção. Acima de 3-5 milhões de tokens por mês, rig local se paga em 12-18 meses e ainda fica como ativo. A mudança de precificação da Anthropic em junho de 2026 reduziu a previsibilidade de assinaturas, o que aumenta o argumento a favor de rig própria para uso intenso.
Quais modelos dá pra rodar em 4x 3090? Qwen 3.6 70B em Q4 quantização (60-80 tok/s), Llama 4 Scout 109B em Q4 (30-40 tok/s), DeepSeek V3 67B em Q4 (50-70 tok/s), ou dois modelos 27B Q8 simultâneos para multi-agent. A lista atualizada está no guia de modelos open-source de 2026 e a análise comparativa da TECHSY com 8 modelos testados.
Quanto de energia uma rig de 4x 3090 gasta por mês? 650W médios em inferência, R$0,80-1,00 por kWh no Brasil, 8-12 horas por dia útil, R$130-200/mês. Se rodar 24/7 com otimização de batch noturno, R$350-450/mês. Comparado com aluguel de H100 a US$1,38/hora 24/7 que dá R$3.000/mês, é economia real. Fonte: análise de mercado de GPU rental de junho de 2026.
Self-hosted é arriscado para PME sem time técnico? Sim, se for o caminho principal. A recomendação pragmática: use Ollama em laptop para prototipar, alugue Vast.ai/RunPod para produção inicial em volume baixo/médio, só migre para rig dedicada quando tiver uso consistente acima de R$500/mês em API. Quem pula para rig sem ter quem mantenha geralmente abandona em 6 meses. O guia comparativo de provedores serverless de 2026 mostra as opções intermediárias antes de chegar na rig.