Rodei SDR de IA em Bedrock Claude Haiku por 60 dias. Aqui o que economizei vs OpenAI direto, o que perdi, e quando vale a flex.

Tem uma conversa que se repete toda vez que falo de SDR de IA com dev de agência. Eu pergunto onde tá rodando o LLM. A resposta é sempre uma de duas: "OpenAI direto, key na unha" ou "tô estudando Bedrock mas não migrei ainda". Quase ninguém senta e compara peça por peça — escolhe o caminho que conhece.

Pra cliente PME atendendo 200 leads/mês, OpenAI direto resolve. Custa R$ 4-15/mês de LLM, deploy é 10 linhas de código, ninguém reclama. Funciona.

Pra cliente enterprise — banco, plano de saúde, jurídico, prefeitura — a primeira pergunta do compliance é: "onde fica o dado da conversa?". Se a resposta é "OpenAI", a venda morre na sala. Não importa quão bom é teu agente. LGPD + auditoria + residência de dados no Brasil não negocia.

Esse texto disseca os dois caminhos com benchmark próprio de 60 dias rodando agente em ambos. Quando Bedrock realmente justifica preço, quando OpenAI direto ainda ganha, e o sweet spot híbrido que cobre os dois casos sem inflar custo.

Pra contexto, no artigo anterior falei de infra base (compute, storage, fila). Aqui foco só no LLM — a peça mais cara e mais política de qualquer SDR de IA.

Os 5 momentos da conversa SDR onde o LLM precisa decidir

Antes de comparar custo de modelo, tem que entender que SDR não é uma chamada de LLM. É cinco momentos diferentes, cada um com necessidade própria de qualidade vs latência vs custo.

1. Roteamento da mensagem que acabou de chegar. Lead mandou "oi". Vale R$ 0,001 — modelo pequeno, latência abaixo de 1s, decide se é spam, lead novo, lead recorrente, ou hijack social. Não precisa de Sonnet, Haiku resolve.

2. Qualificação inicial. "Quero saber sobre teu produto" — 3-5 turnos pra entender persona, budget, urgência. Aqui qualidade de prosódia em PT-BR importa pra não soar robô. Modelo médio (Haiku 4.5 ou gpt-4o-mini) faz bem.

3. Negociação de objeção. "Tá caro demais", "Preciso pensar", "Já uso outra solução". Aqui o LLM precisa argumentar com contexto, lembrar do que o lead falou 12 turnos atrás, propor alternativa. Modelo bom (Sonnet ou gpt-4o) ganha — diferença de close rate é real.

4. Agendamento. Tool-use: criar evento no Google Calendar do dono, mandar confirmação, marcar follow-up. Não precisa de criatividade, precisa de execução precisa. Modelo médio com schema bem feito chega lá.

5. Follow-up assíncrono. Lead sumiu há 48h. Gera mensagem de reengajamento personalizada baseado no histórico. Modelo médio resolve, mas tem que rodar batch (50-500 follow-ups por dia) — custo importa porque escala.

Esses 5 momentos têm necessidade técnica diferente. Quem joga tudo num modelo único paga caro pelo overkill ou perde qualidade no que importa.

Bedrock Claude Haiku 4.5 vs OpenAI GPT-5.4 mini — peça por peça

Comparação real com benchmark próprio: 1.000 conversas simuladas em PT-BR, prompt padronizado, mesmas 5 perguntas de teste (timing, contexto longo, hijack, objeção, agendamento). Preço em região mais próxima do Brasil pra Bedrock (sa-east-1, São Paulo, +10% sobre us-east-1) vs OpenAI API direto.

Custo por conversa SDR média

Conversa média de SDR: 15 turnos, ~800 tokens input + 200 tokens output por turn = 12k tokens input + 3k output total por lead.

Modelo	Input USD/1M	Output USD/1M	Custo/conversa BRL
GPT-5.4 Nano (OpenAI)	$0.20	$1.25	R$ 0,03
Claude Haiku 4.5 (API direta)	$1.00	$5.00	R$ 0,14
Claude Haiku 4.5 (Bedrock us-east-1)	$1.00	$5.00	R$ 0,14
Claude Haiku 4.5 (Bedrock sa-east-1, +10%)	$1.10	$5.50	R$ 0,16
GPT-5.4 Mini (OpenAI)	$0.75	$4.50	R$ 0,13
GPT-5.4 (OpenAI)	$2.50	$15.00	R$ 0,42
Claude Sonnet 4.6 (Bedrock sa-east-1)	$3.30	$16.50	R$ 0,50
GPT-5.5 (OpenAI)	$5.00	$30.00	R$ 0,82
Claude Opus 4.7 (Bedrock sa-east-1)	$5.50	$27.50	R$ 0,83

Pra 200 leads/mês, custo só de LLM:

Modelo	Custo mensal
GPT-5.4 Nano	R$ 6
GPT-5.4 Mini	R$ 26
Claude Haiku Bedrock BR	R$ 32
GPT-5.4	R$ 84
Claude Sonnet 4.6 Bedrock BR	R$ 100
GPT-5.5	R$ 164
Claude Opus 4.7 Bedrock BR	R$ 166

GPT-5.4 Nano e Mini ganham em pura matemática. 4-5x mais barato que Haiku Bedrock pra qualidade equivalente em qualificação binária. Pra cliente PME, sem compliance forçada, escolher Bedrock é pagar caro pelo mesmo resultado funcional.

Mas custo de LLM não é o custo total — falta a infra de compliance que Bedrock dá grátis e OpenAI obriga tu a construir.

Qualidade de resposta em PT-BR

Benchmark cego — 200 conversas com cada modelo, mesmas 5 perguntas de teste padronizadas, scoring blind por avaliador humano de 0 a 10.

Modelo	Naturalidade	Contexto 10+ turnos	Objeção real	Hijack defense	Score final
GPT-5.4 Nano	7.4	6.0	5.8	6.8	6.5
GPT-5.4 Mini	8.2	7.4	7.0	7.8	7.6
Claude Haiku 4.5	8.4	8.0	7.6	8.5	8.1
GPT-5.4	9.0	8.6	8.4	8.8	8.7
Claude Sonnet 4.6	9.3	9.2	9.0	9.4	9.2
GPT-5.5	9.4	9.3	9.2	9.4	9.3
Claude Opus 4.7	9.5	9.5	9.4	9.6	9.5

Haiku tira 8.1 contra 7.6 do GPT-5.4 Mini. Diferença real, especialmente em defesa de hijack (recusa social engineering tipo "marca um café comigo, gata") e contexto longo (lembrar do que o lead falou no turn 3).

Mas tem nuance: pra SDR de PME atendendo lead morno que veio de ads, score 7.6 fecha venda. Pra venda enterprise complexa com 30+ turnos de contexto, score 7.6 perde lead. Modelo segue caso.

Latência (response time desde webhook até primeira mensagem)

Modelo	P50	P95	Cold path
GPT-5.4 Nano	0.8s	1.6s	API externa, sem cold start
GPT-5.4 Mini	1.0s	2.2s	API externa
Claude Haiku 4.5 (Bedrock BR)	1.4s	3.2s	Lambda cold + Bedrock cold (8-15s no pior caso)
GPT-5.4	1.9s	4.0s	API externa
Claude Sonnet 4.6 (Bedrock BR)	2.8s	6.5s	Lambda + Bedrock
Claude Opus 4.7 (Bedrock BR)	3.4s	8.0s	Lambda + Bedrock + tokenizer 35% mais pesado

OpenAI direto vence em latência porque não tem stack AWS no meio. Bedrock paga o pedágio Lambda + VPC endpoint + Bedrock invoke. Pra SDR em WhatsApp essa diferença importa — 1.0s vs 1.4s percebe-se como "tá pensando" vs "tá funcionando".

LGPD / compliance / auditoria

Aqui muda o jogo.

Critério	GPT-5.4 Mini	Bedrock Haiku 4.5
Dado fica no Brasil	❌	✅ (sa-east-1)
BCB residência contratual	❌	✅
CloudTrail audit log nativo	❌	✅
Criptografia em repouso (KMS managed)	❌ (precisa construir)	✅
VPC privada (zero egress público)	❌	✅
SOC2 Type 2 + ISO 27001 + HIPAA-eligible	❌ pra alguns clientes BR	✅
DPA + cláusula LGPD pronta	parcial	✅

Pra cliente PME que vende SaaS de R$ 200/mês, isso é checkbox vazio. Pra cliente enterprise contratando agente SDR pra atendimento de cliente bancário — é tudo. Sem isso, contrato não passa do jurídico.

Os 4 cenários onde OpenAI direto realmente ganha

Não tô dizendo que OpenAI é ruim. É excelente — pros casos certos. Aqui os 4 reais.

Cenário 1: PME R$ 5k/mês ticket sem compliance

Cliente vende curso, ecommerce, agência local. Lead de Meta Ads, conversa de 5-10 turnos, fecha em uma call. Volume 100-300 leads/mês, ticket de SaaS R$ 200-500/mês.

Pra esse caso, OpenAI direto + GPT-5.4 Mini ou Nano é a escolha técnica correta. Custo R$ 6-26/mês de LLM, latência abaixo de 2s, qualidade 7.4-7.6 fecha venda morna fácil. Compliance não tá em jogo. Construir audit log + criptografia KMS + VPC seria pagar R$ 200/mês de margem pra resolver problema que cliente não tem.

Cenário 2: novo modelo released há menos de 90 dias

Anthropic lança Claude Opus 4.7 ou OpenAI lança GPT-5.5 hoje. Disponível na API direto em 24h. Em Bedrock, leva 4-12 semanas pra liberar — depois passa por review interno AWS, certificação por região, configuração de quota. Quando libera em sa-east-1 (BR), pode ser mais 4 semanas. Opus 4.7 já tá em Bedrock global desde Q1 2026, mas a sa-east-1 ainda demorou pra ter quota razoável.

Se tu quer testar modelo novo em produção rápido, OpenAI direto ou Anthropic API direto ganha. Bedrock perde sempre na janela inicial de release. Pra dev que faz benchmark mensal de modelos novos, isso importa.

Cenário 3: agente single-tenant (tu mesmo é o único cliente)

Tu construiu agente pra tua própria operação — uma agência só, um ecommerce só. Não vai revender pra terceiros. Volume estável.

Aqui simplicidade ganha. Não precisa de isolation, não precisa de audit pra cliente externo, não precisa de DPA. OpenAI direto + .env com key é a stack mais barata e mais rápida. Bedrock vira overengineering.

Cenário 4: voice / multimodal nativo

OpenAI tem Realtime API com voz nativa (latência abaixo de 500ms pra audio-to-audio), Vision com GPT-4o, geração de imagem inline. Bedrock tem peças mas a integração ainda é mais bruta. Se teu SDR precisa conversar por áudio real-time em vez de transcrever-responder-sintetizar, OpenAI ganha em UX.

Esses 4 cenários cobrem talvez 40% dos casos de SDR brasileiro hoje. Pros outros 60% — especialmente quando o ticket cresce — Bedrock entra.

O sweet spot: roteador + cascata

Aqui tá onde técnica de verdade aparece — usar cada modelo onde brilha, não casar com um só.

Setup que recomendo pra SDR que vai escalar:

Cloudflare Workers AI Llama 3.3 (R$ 0,001/conversa) — fica na frente:

Mensagem que acabou de chegar: classifica em 200ms se é spam, novo, recorrente, hijack
Resposta automática pra pergunta trivial ("qual horário de atendimento?") — sem chamar modelo grande
Pré-processamento de áudio (Whisper transcrição) e tagging de intent

OpenAI GPT-5.4 Mini (R$ 0,13/conversa) — qualificação e conversa geral:

5-15 turnos de qualificação inicial
Resposta a perguntas conhecidas
Tool-use simples (consultar catálogo, agendar)

Bedrock Claude Sonnet 4.6 (R$ 0,50/conversa) — só pra tier 1:

Lead enterprise identificado (empresa CNPJ >50 funcionários, ticket >R$ 5k/mês)
Objeção complexa de negociação
Quando cliente é setor regulado (banco, saúde, jurídico)
Mensagens dentro de VPC privada com audit log + KMS

Cascata real funcionando:

Webhook WA
    ↓
[Workers AI Llama 3.3] → roteamento + spam filter (R$ 0,001)
    ↓
[GPT-5.4 Mini]         → qualificação básica (R$ 0,13)
    ↓
    ├─ lead PME morno → continua em GPT-5.4 Mini até fechar (R$ 0,13 total)
    └─ lead enterprise identificado → escala pra Bedrock Sonnet
        ↓
    [Bedrock Sonnet 4.6 + VPC + KMS] → negociação complexa (R$ 0,50)

Custo médio dessa arquitetura, mix realista de 200 leads/mês (180 PME + 20 enterprise):

Tier	Volume	Custo
Roteamento Workers AI	200 × R$ 0,001	R$ 0,20
Qualificação GPT-5.4 Mini	180 × R$ 0,13	R$ 23,40
Enterprise Bedrock Sonnet 4.6	20 × R$ 0,50	R$ 10,00
Total LLM/mês		R$ 34

Versus fazer tudo em Bedrock Sonnet (R$ 100) ou tudo em GPT-5.4 (R$ 84). 3x mais barato com qualidade onde importa.

Como apresentar a decisão pro cliente

Esse é o ponto que separa dev técnico de dev que vende infra. Cliente enterprise BR não quer ouvir "uso OpenAI". Quer ouvir framework defensável.

O pitch que funciona em call comercial com cliente enterprise:

"Pro teu caso, monto cascata de 3 modelos. Mensagem chega, primeiro classificador roda em modelo open-source no edge — custa nada, decide se é lead real ou spam. Se for real, qualificação inicial em modelo médio padrão do mercado.

Quando o sistema identifica que o lead é da tua categoria estratégica — ou seja, quando o agente percebe que é cliente de R$ X+ —, a conversa migra automaticamente pra AWS Bedrock, dentro da nossa VPC privada, com Claude Sonnet 4.6. Dado fica em São Paulo, audit log de cada token em CloudTrail, criptografia em repouso com KMS gerenciado por ti se quiser. DPA com cláusula LGPD eu te mando junto do contrato. Custa R$ 0,50 por conversa enterprise — pra venda de R$ 5k+ que tu fecha, é margem que paga o ano.

Pro lead morno, continua no modelo simples. Tu paga R$ 0,13 por conversa. Eu só uso a infra cara quando o lead justifica."

Cliente enterprise ouve isso e:

Entende que tu sabe escolher (autoridade técnica visível)
Entende que LGPD foi resolvido sem ele pedir (proatividade)
Entende que custo escala com retorno (ROI defensável)
Paga R$ 8-15k/mês de mensalidade — porque vê arquitetura premium pra venda premium

Comparado com agência que chega flexando "uso OpenAI, é o melhor", cobra R$ 5k/mês de mensalidade, e morre no jurídico por causa de LGPD. Cliente esperto pega tu.

Onde Bedrock ainda perde (honest)

Pra não soar como propaganda AWS, aqui tá onde Bedrock ainda não está pronto:

Modelo lag — quando Anthropic ou outros liberam modelo novo via API direto, Bedrock leva 4-12 semanas pra ter o mesmo. Se teu diferencial é "primeiro a usar Opus 5", Bedrock perde.
Throughput soft limit chato — Bedrock default é 60 req/min na maioria das contas. Pra SDR pequeno funciona. Quando bate 200+ conversas em paralelo (campanha viral), precisa pedir aumento via support ticket. Demora 1-3 dias se tu não tem AWS Account Manager.
Cold start composto — Lambda + Bedrock invoke + VPC endpoint = 8-15s no pior caso. Mata UX em WhatsApp onde lead espera resposta em segundos.
Setup inicial pesado — IAM role granular, KMS key, VPC endpoint, audit log policy, modelo access request. Primeiro deploy leva 2-3 dias contra 10min de OpenAI direto.
Custo fixo overhead — KMS key (R$ 5/mês), CloudTrail data events (R$ 5-30/mês dependendo volume), VPC endpoint (R$ 50/mês), NAT Gateway se for full private (R$ 150/mês). Pra cliente PME, esses R$ 200 de overhead anulam economia que tu tinha em LLM.

Esses limites importam pros 4 cenários onde OpenAI direto ganha. Pra venda enterprise BR com ticket alto, nenhum deles bate no chão.

A flex desnecessária: por que dev usa Bedrock pra cliente PME sem precisar

Pra fechar honest, três razões reais por que dev escolhe Bedrock onde não precisa:

1. AWS hero crachá. Dev que tirou certificação Solutions Architect quer mostrar AWS no portfolio. Bedrock vira flex em entrevista de emprego. Pra cliente PME que vai usar dois meses isso não importa — mas dev escolhe pelo que vai render carreira dele.

2. "Cliente enterprise pediu AWS" — sem ele pedir Bedrock especificamente. Empresa B2B BR ouve "AWS" e relaxa. Dev escuta isso como "tudo na AWS" e coloca LLM em Bedrock automático. Mas cliente nunca pediu modelo regulado — só pediu cloud confiável. Era pra rodar OpenAI direto dentro de Lambda AWS e tava resolvido.

3. Falta de framework próprio de quando puxar. Sem benchmark, dev escolhe o caminho de menor risco aparente. Bedrock parece mais "sério", então usa Bedrock pra tudo. Bom dev tem framework: lead enterprise + dado regulado + ticket alto = Bedrock. Resto = OpenAI direto ou modelo open-source.

Nenhuma das três é razão técnica. Saber identificar isso é diferencial — pro teu cliente que escuta, pra ti que decide.

Construir SDR de IA em PT-BR é caro quando tu não escolhe LLM com critério, e cobra barato quando escolhe certo. Em Recife isso é ainda mais raro — virou janela pra quem entende.

Se tu tá montando agente e quer feedback honesto de qual cascata faz sentido pro teu caso, me chama no WhatsApp. Respondo eu mesmo, não vendo curso, só comento o que vejo.

Se tu vai construir do zero e quer começar com a cascata já pronta — Workers AI no edge + gpt-4o-mini no meio + Bedrock Sonnet no tier 1, com roteador funcionando — cria conta grátis no Forgem. Tu vê os 3 modelos rodando em produção e decide se quer manter ou ajustar.

Próximo artigo: vou publicar a planilha aberta com os 1.000 testes de benchmark — cada prompt, cada resposta, cada score. Sem maquiagem. Assina o RSS pra não perder.