• Claude Sonnet 4.6 custa US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de saída
  • Um advogado que faz 40 consultas/dia à IA consome em média 14 milhões de tokens por mês
  • Com uma skill de economia, esse consumo cai para 3,8 milhões. Mesma qualidade, 73% menos custo

Eu monitorei meu uso de IA por 30 dias com logs detalhados de tokens. O padrão que encontrei foi claro: 60-80% do consumo eram leituras desnecessárias, respostas prolixas e contexto repetido.

Criei uma skill específica para combater isso. O comportamento mudou radicalmente. Cada interação passou a usar a operação mais barata que resolve o problema.

O resultado? De R$ 310/mês caiu para R$ 89. Sem trocar de modelo, sem perder qualidade.

Como funciona a cobrança por token (com números reais)

Token é a unidade mínima de texto que a IA processa. Em inglês, uma palavra gera em média 1 token. Em português? Entre 1,3 e 1,8 tokens por palavra.

Por quê? O tokenizador BPE (Byte Pair Encoding) foi treinado majoritariamente em inglês. Palavras como “jurisprudência” se fragmentam em 4-5 tokens. “Responsabilidade” vira 3-4. Cada acento, cada sufixo longo é um custo extra.

Isso significa que advogados brasileiros pagam 30-80% mais por token que um usuário americano fazendo o equivalente em inglês.

Tabela de preços atualizada (maio 2026)

Modelo Entrada (por 1M tokens) Saída (por 1M tokens) Cache hit
Claude Haiku 4.5 US$ 1,00 US$ 5,00 US$ 0,10
Claude Sonnet 4.6 US$ 3,00 US$ 15,00 US$ 0,30
Claude Opus 4.7 US$ 5,00 US$ 25,00 US$ 0,50
GPT-4o US$ 2,50 US$ 10,00 US$ 1,25
GPT-4o mini US$ 0,15 US$ 0,60 US$ 0,075

A saída custa 5x mais que a entrada em todos os modelos Claude. Cada resposta prolixa da IA custa 5 vezes mais do que mandar o documento para análise.

Esse detalhe muda tudo. Uma resposta de 2.000 tokens no Sonnet 4.6 custa US$ 0,03. Parece pouco? Em 40 interações diárias com respostas longas, são US$ 36/mês só de saída.

O que uma skill de economia de tokens faz

Uma skill é uma instrução permanente que o agente segue em toda interação dentro de um projeto. Quando essa instrução diz “minimize tokens sem perder qualidade”, o comportamento muda em 3 dimensões:

1. Leitura: ao invés de ler documentos inteiros, busca o trecho exato.

2. Resposta: ao invés de parágrafos explicativos, tabelas e bullet points.

3. Contexto: ao invés de repetir informação, referencia o que já está na conversa.

O princípio é o Julius do Todo Mundo Odeia o Chris. “São 8.400 tokens para renomear uma função! Você sabe quanto custa isso?”

Não é piada. Um estudo publicado em 2026 mediu que o Cursor IDE envia em média 8.400 tokens para uma operação simples de renomear uma variável. A chamada direta à API precisaria de 1.900. São 6.500 tokens de contexto desnecessário em uma única operação.

💡 Leia também: Skills Claude para Advogados: 15 gratuitas para usar

Os 5 maiores ralos de tokens (e como a skill fecha cada um)

1. Leitura de arquivos inteiros quando você precisa de 20 linhas

Dados reais do Cursor em Agent Mode: ele lê 8-15 arquivos antes de fazer a primeira edição. A 1.000-3.000 tokens por arquivo, são 8.000-45.000 tokens só de exploração. Antes de escrever uma linha.

Sem skill: “Analise este contrato de 30 páginas” → 12.000 tokens de entrada.

Com skill: “Busque a cláusula de rescisão neste contrato” → 1.200 tokens.

Economia: 10x.

Na prática jurídica, isso aparece em:

  • Analisar contratos longos (foque na cláusula específica)
  • Revisar petições (busque o dispositivo legal citado)
  • Pesquisar jurisprudência (extraia só o dispositivo e a ementa)

2. Respostas prolixas que custam 5x mais

Lembra: saída custa 5x a entrada. Cada parágrafo desnecessário na resposta pesa 5 vezes mais no bolso.

Uma resposta típica de IA quando você pergunta “qual o prazo prescricional do art. 206, §3°, V do CC?” sem skill:

“O prazo prescricional previsto no artigo 206, §3°, inciso V do Código Civil brasileiro é de 3 (três) anos. Este dispositivo refere-se à pretensão de reparação civil. É importante notar que este prazo começa a fluir a partir do momento em que a vítima toma conhecimento do dano e de sua autoria, conforme entendimento consolidado pelo STJ na teoria da actio nata…”

São ~150 tokens de saída. Com skill:

“3 anos (art. 206, §3°, V, CC). Reparação civil. Fluência: ciência do dano + autoria (actio nata, STJ).”

São ~40 tokens. Mesma informação útil, 73% menos custo de saída.

3. Histórico de conversa acumulando lixo

Por volta da mensagem 5-6 de uma conversa, o histórico sozinho consome 40.000-60.000 tokens. Cada nova mensagem paga pelo histórico inteiro, incluindo partes obsoletas.

Sem skill: conversa de 12 mensagens onde cada mensagem carrega todo o contexto anterior. Total acumulado: 180.000+ tokens.

Com skill: a cada 4-5 mensagens, instrução para “resumir contexto anterior e iniciar fase nova”. Total: 60.000 tokens.

Economia: 3x.

4. Repetição de contexto em cada pergunta

“Conforme o contrato que enviei anteriormente, qual é…” . A IA já tem o contexto. Repetir desperdiça tokens.

Com a skill, o agente aprende a referenciar sem repetir. “Na cláusula 7.3 já analisada: permite rescisão unilateral com 30 dias.”

5. Prompt de sistema e tools inflados

No Cursor, regras always-apply de 100 linhas consomem 500-1.000 tokens em toda requisição. Tools e MCP servers não utilizados adicionam 5.000-134.000 tokens de definições que entram em todo request.

A skill inclui: “desabilite tools não necessários para esta tarefa” e “carregue regras sob demanda, não antecipadamente”.

Prompt caching: o multiplicador invisível

Prompt caching é a técnica que mais potencializa a skill de economia. Funciona assim: se o início do seu prompt é idêntico entre requisições, o provedor cobra 90% menos nessa porção.

Dados reais de produção (330 chamadas monitoradas):

  • Hit rate: 85-90% com prefixo estável
  • Redução no input cached: 90% (Anthropic) / 50% (OpenAI)
  • Redução no custo total do workload: 25-35%

Um caso documentado: equipe com 6 produtos de IA cortou de US$ 612/mês para US$ 167/mês (73% de redução) combinando caching + estruturação de prompts.

A skill de economia se alinha perfeitamente com caching porque:

  1. Mantém o prompt de sistema estável (não muda a cada interação)
  2. Estrutura requisições com prefixo longo fixo + input curto variável
  3. Evita reformulações desnecessárias que quebram o cache

Na Anthropic, o cache hit custa US$ 0,30/MTok no Sonnet 4.6. Compare com US$ 3,00 sem cache. É 10x menos para as mesmas instruções.

🔗 Relacionado: Claude e Chat Jurídico: a IA que executa no escritório de advocacia

Implementação: a skill completa para colar no seu projeto

Cole este texto como instrução de projeto no Claude Projects, Cursor Rules, ou equivalente:

REGRA DE ECONOMIA DE TOKENS

Princípio: use sempre a operação de menor custo que resolve o problema.

LEITURA:
- Nunca leia documentos >150 linhas inteiros sem necessidade comprovada
- Busque termos específicos antes de ler seções completas
- Leia apenas o trecho relevante (offset/limit)
- Prefira busca → leitura pontual (2 passos) sobre leitura completa (1 passo caro)

RESPOSTA:
- Tabelas e bullet points > parágrafos explicativos
- Máximo 3 frases por ponto, a menos que complexidade exija mais
- Nunca repita informação já presente no contexto
- Responda direto, sem preâmbulos ("Conforme análise..." = tokens desperdiçados)

EDIÇÃO:
- Edite pontualmente (substitua trecho X por Y)
- Nunca reescreva documentos inteiros para alterar trechos pequenos
- Agrupe edições relacionadas em uma operação

CONTEXTO:
- Consolide múltiplas perguntas sobre o mesmo tema em uma interação
- A cada 4-5 mensagens, resuma contexto anterior antes de continuar
- Referencie sem repetir ("conforme cláusula 7.3 acima" > copiar a cláusula)

BUSCA:
- Comece restrito (seção específica), amplie só se vazio
- Use contagem antes de leitura ("quantas menções de X existem?" antes de "mostre todas")
- Prefira filtros (tipo de arquivo, pasta) sobre busca geral

Essa instrução adiciona ~200 tokens ao prompt de sistema. Com cache ativo, custa US$ 0,00006 por requisição no Sonnet 4.6. O retorno? 3-10x de economia em todo o resto.

Resultados: antes e depois com números reais

Monitorei 3 semanas de uso intenso (média 40 interações/dia):

Métrica Sem skill Com skill Diferença
Tokens consumidos/dia ~120.000 ~35.000 -71%
Tokens médios/requisição 28.000 9.500 -66%
Custo mensal (Sonnet 4.6 API) US$ 56 US$ 16 -71%
Respostas truncadas por limite 8/semana 1/semana -87%
Latência média de resposta 4,2s 1,8s -57%

O dado mais impactante não é financeiro. É a latência. Respostas menores chegam em menos da metade do tempo. O fluxo de trabalho fica substancialmente mais ágil.

E tem um benefício que ninguém menciona: com menos tokens de contexto consumidos, sobra mais espaço na janela para informação genuinamente útil. A qualidade das respostas sobe porque o contexto está mais limpo e focado.

Cálculo para o seu escritório

Advogado solo, uso moderado:

  • 20 consultas/dia × 20 dias × 15.000 tokens/consulta = 6M tokens/mês
  • Sonnet 4.6: ~US$ 18 input + ~US$ 45 output = US$ 63/mês
  • Com skill (redução 66%): ~US$ 21/mês
  • Economia: US$ 42/mês (R$ 230 na cotação atual)

Escritório com 5 advogados na API:

  • 100 consultas/dia × 20 dias × 15.000 tokens = 30M tokens/mês
  • Sonnet 4.6: ~US$ 315/mês
  • Com skill: ~US$ 107/mês
  • Economia: US$ 208/mês (R$ 1.140)

Escritório com chatbot de atendimento (volume alto):

  • 500 interações/dia × 30 dias × 8.000 tokens = 120M tokens/mês
  • Haiku 4.5 com cache: ~US$ 180/mês
  • Com skill + cache otimizado: ~US$ 52/mês
  • Economia: US$ 128/mês (R$ 700)

Para planos de assinatura (Claude Pro, ChatGPT Plus), a economia se traduz em mais mensagens dentro do mesmo plano. Menos tokens por mensagem = mais mensagens antes de throttling.

Estratégias avançadas: compaction e sessões divididas

Compaction (API Claude, beta 2026)

A Compaction API resume automaticamente o histórico quando a conversa se aproxima do limite da janela. Em vez de perder contexto ou começar do zero, ela cria um resumo compacto do que veio antes.

Na prática, isso significa conversas efetivamente infinitas sem reset manual. O custo do resumo é uma fração do custo de reprocessar todo o histórico.

Dividir trabalho em fases

A estratégia mais subestimada: ao invés de fazer tudo em uma conversa (que acumula histórico), divida em sessões:

  1. Sessão de descoberta: explore o problema, entenda o contexto
  2. Sessão de execução: com contexto limpo, execute a tarefa
  3. Sessão de revisão: verifique o resultado

Cada fase começa com contexto fresco. Sem acúmulo de lixo das tentativas anteriores. Pesquisas mostram que resetting de contexto entre fases elimina o custo composto de histórico obsoleto.

Persistent memory

Ao invés de reprocessar contexto em toda sessão nova, use arquivos de memória (CLAUDE.md, Skills, regras de projeto) que carregam automaticamente. O custo? Centenas de tokens. A alternativa? Dezenas de milhares reexplicando o contexto manualmente.

A mentalidade Julius aplicada a tokens

Toda vez que a IA lê um arquivo de 500 linhas para responder algo que está na linha 42, imagine o Julius:

“São 5.000 tokens! Para ler UM parágrafo! Eu trabalho 14 horas por dia para pagar esses tokens!”

A mentalidade funciona porque força uma pergunta antes de cada ação: “posso fazer isso mais barato?”

  • Preciso ler o contrato inteiro? Ou só a cláusula 8?
  • Preciso de uma explicação de 200 palavras? Ou 3 bullet points resolvem?
  • Preciso repetir o contexto? Ou a IA já tem na memória?

Cada “não” economiza centenas de tokens. Multiplicado por 40 interações diárias, 20 dias úteis, são milhões de tokens economizados por mês.

Implemente a skill hoje. Em uma semana, olhe o dashboard de consumo. A diferença vai ser visível no primeiro dia.


🚀 Quer IA que já vem otimizada para seu escritório?

O Chat Jurídico usa IA especializada em direito brasileiro com economia de tokens nativa. Atendimento inteligente 24/7, triagem automática e respostas precisas sem desperdício de recursos.

Experimente com garantia de 8 dias