Como Funcionam os Precos das APIs de IA
Todo grande provedor de IA — OpenAI, Anthropic e Google — cobra pelo uso da API com base em tokens, nao caracteres, palavras ou requisicoes. Um token e a unidade fundamental de texto que modelos de linguagem processam. Em ingles, 1 token equivale a aproximadamente 4 caracteres ou 0,75 palavras. A frase "Hello, world!" tem aproximadamente 4 tokens. Um post de blog com 1.000 palavras tem cerca de 1.300 tokens.
Os precos sao sempre expressos como dolares por milhao de tokens ($/1M tokens), divididos em duas taxas separadas:
- Tokens de entrada (prompt tokens): Todo token na sua requisicao — prompt do sistema, historico de conversa, mensagem do usuario e qualquer contexto que voce injeta.
- Tokens de saida (completion tokens): Todo token que o modelo gera na sua resposta. Esses sao cobrados separadamente e sao tipicamente 3 a 5 vezes mais caros por token do que tokens de entrada.
Entender essa distincao e crucial para estimativa de custos. Um chatbot que gera respostas longas, um gerador de codigo com saida detalhada ou uma ferramenta de resumo com resumos detalhados vai gastar muito mais em tokens de saida do que tokens de entrada.
Regra pratica: Para a maioria das aplicacoes em producao, assuma que seus custos se dividem em aproximadamente 30% entrada / 70% saida em valor monetario, porque tokens de saida custam muito mais por token.
Precos da API OpenAI 2026
A OpenAI oferece uma gama de modelos nas familias GPT-4 e de raciocinio (serie o). Todos os precos abaixo sao para acesso API padrao. Os precos da Batch API sao aproximadamente 50% mais baratos com retorno em 24 horas.
| Modelo | Entrada (por 1M tokens) | Saida (por 1M tokens) | Janela de Contexto |
|---|---|---|---|
| GPT-4o | $2,50 | $10,00 | 128K tokens |
| GPT-4o mini | $0,15 | $0,60 | 128K tokens |
| o1 | $15,00 | $60,00 | 200K tokens |
| o3-mini | $1,10 | $4,40 | 200K tokens |
| GPT-4o (entrada em cache) | $1,25 | $10,00 | 128K tokens |
O GPT-4o mini entrega cerca de 80-85% da qualidade do GPT-4o na maioria das tarefas com custo 94% menor. Para aplicacoes de alto volume onde o desempenho maximo absoluto nao e necessario — classificacao, extracao, Q&A simples — o GPT-4o mini e a escolha padrao para equipes conscientes de custos. Os modelos de raciocinio o1 e o3 sao projetados para tarefas complexas de matematica, codigo e logica multi-etapa e possuem precos premium refletindo sua computacao interna de cadeia de pensamento.
Precos da API Anthropic Claude
A Anthropic precifica suas familias de modelos Claude 3.5 e Claude 3 de forma similar a OpenAI, com uma camada rapida/barata e outra capaz/cara. Os modelos Claude sao particularmente competitivos para tarefas de contexto longo dada sua janela de contexto de 200K tokens em todas as camadas.
| Modelo | Entrada (por 1M tokens) | Saida (por 1M tokens) | Janela de Contexto |
|---|---|---|---|
| Claude 3.5 Sonnet | $3,00 | $15,00 | 200K tokens |
| Claude 3.5 Haiku | $0,80 | $4,00 | 200K tokens |
| Claude 3 Opus | $15,00 | $75,00 | 200K tokens |
| Claude 3.5 Sonnet (em cache) | $0,30 | $15,00 | 200K tokens |
O recurso de prompt caching da Anthropic e uma das ferramentas de reducao de custos mais poderosas disponiveis: prefixos de prompt repetidos — como prompts de sistema longos ou documentos injetados — sao cacheados a aproximadamente 10% da taxa de entrada padrao. Aplicacoes que enviam o mesmo contexto grande repetidamente (pipelines RAG, analise de documentos) podem ver reducoes de custo de 70-90% com prompt caching habilitado.
Precos da API Google Gemini
O Google Gemini se destaca com uma camada gratuita generosa e as maiores janelas de contexto da industria (ate 2 milhoes de tokens para o Gemini 1.5 Pro). Os precos escalam com o uso da janela de contexto para modelos Gemini 1.5: requisicoes abaixo de 128K tokens sao cobradas na taxa padrao; contextos maiores sao cobrados a uma taxa mais alta.
| Modelo | Entrada (por 1M tokens) | Saida (por 1M tokens) | Janela de Contexto |
|---|---|---|---|
| Gemini 1.5 Pro (≤128K) | $1,25 | $5,00 | 2M tokens |
| Gemini 1.5 Pro (>128K) | $2,50 | $10,00 | 2M tokens |
| Gemini 1.5 Flash (≤128K) | $0,075 | $0,30 | 1M tokens |
| Gemini 2.0 Flash | $0,10 | $0,40 | 1M tokens |
| Gemini 1.5 Flash (camada gratuita) | $0,00 | $0,00 | Rate-limited |
O Gemini 1.5 Flash e o modelo pronto para producao mais acessivel entre todos os tres provedores para tamanhos de contexto padrao, a $0,075/1M tokens de entrada. Para cargas de trabalho extremamente sensiveis a custos, vale a pena fazer benchmark do Flash contra o GPT-4o mini e Claude 3.5 Haiku para sua tarefa especifica.
Custos de Tokens de Entrada vs Saida
A assimetria de precos entre tokens de entrada e saida e um dos fatores mais importantes — e mais frequentemente negligenciados — na modelagem de custos de API de IA. Em todos os tres grandes provedores, tokens de saida custam 3 a 5 vezes mais por token do que tokens de entrada:
- GPT-4o: Entrada $2,50 / Saida $10,00 — 4x premium na saida
- Claude 3.5 Sonnet: Entrada $3,00 / Saida $15,00 — 5x premium na saida
- Gemini 1.5 Pro: Entrada $1,25 / Saida $5,00 — 4x premium na saida
Esse premium existe porque gerar tokens de saida e computacionalmente mais caro do que processar tokens de entrada — o modelo precisa executar o processo completo de amostragem autorregressiva para cada token que gera, enquanto o processamento de entrada e paralelizado.
A implicacao pratica: se sua aplicacao gera respostas longas (resumos detalhados, codigo verboso, explicacoes multi-etapa), seus custos de tokens de saida vao dominar. Reduzir o comprimento medio da resposta — atraves de instrucoes explicitas de comprimento, formatos de saida estruturados ou resumos mais curtos — reduz diretamente seu maior componente de custo.
Como Estimar Seus Custos de API
Use esta formula para estimar o custo de uma unica chamada de API:
Custo = (tokens_entrada / 1.000.000 x preco_entrada)
+ (tokens_saida / 1.000.000 x preco_saida)
Exemplo pratico — uma chamada GPT-4o com um prompt de sistema de 500 tokens, mensagem do usuario de 200 tokens e uma resposta de 1.500 tokens:
Tokens de entrada: 500 (sistema) + 200 (usuario) = 700 tokens
Tokens de saida: 1.500 tokens
Custo = (700 / 1.000.000 x $2,50) + (1.500 / 1.000.000 x $10,00)
= $0,00175 + $0,01500
= $0,01675 por chamada
Com 10.000 chamadas/mes: $0,01675 x 10.000 = $167,50/mes
A mesma carga de trabalho no GPT-4o mini:
Custo = (700 / 1.000.000 x $0,15) + (1.500 / 1.000.000 x $0,60)
= $0,000105 + $0,000900
= $0,001005 por chamada
Com 10.000 chamadas/mes: $0,001005 x 10.000 = $10,05/mes
Apenas a escolha do modelo produz uma diferenca de custo de 16x. Sempre faca benchmark de modelos mais baratos primeiro — muitos casos de uso em producao rodam perfeitamente no GPT-4o mini ou Gemini 1.5 Flash.
7 Formas de Reduzir Custos de API
1. Escolha o modelo certo para a tarefa
Use modelos frontier (GPT-4o, Claude 3.5 Sonnet) apenas para tarefas que genuinamente requerem sua capacidade. Roteie classificacao, extracao e Q&A simples para GPT-4o mini, Gemini Flash ou Claude Haiku. Uma camada de roteamento que classifica a complexidade da requisicao primeiro pode reduzir custos em 60-80%.
2. Habilite prompt caching
Tanto OpenAI quanto Anthropic oferecem prompt caching para prefixos repetidos. Se sua aplicacao envia o mesmo prompt de sistema ou contexto de documento em cada requisicao, tokens em cache custam 50-90% menos que os nao cacheados. Prefixe seus prompts com o conteudo estavel que pode ser cacheado.
3. Comprima e otimize prompts de sistema
Prompts de sistema sao cobrados em cada turno de uma conversa. Um prompt de sistema de 1.000 tokens em uma conversa de 20 turnos custa 20.000 tokens de entrada so para o prompt. Audite seus prompts de sistema: remova instrucoes redundantes, use bullet points em vez de prosa e elimine exemplos que podem ser tratados por few-shot no primeiro turno do usuario.
4. Limite o comprimento da saida explicitamente
Instrua o modelo a ser conciso. Adicione frases como "Responda em 2-3 frases" ou "Responda em menos de 100 palavras" aos seus prompts para tarefas onde a prolixidade nao e necessaria. Use o parametro max_tokens para limitar rigidamente o comprimento da saida e prevenir custos de geracao descontrolados.
5. Use a Batch API
A Batch API da OpenAI e endpoints de processamento assincrono similares oferecem descontos de 50% para cargas de trabalho que toleram retorno em 24 horas. Processamento de documentos, extracao de dados, pipelines de classificacao e geracao de relatorios noturnos sao excelentes candidatos para batching.
6. Implemente cache semantico
Para aplicacoes onde usuarios fazem perguntas similares repetidamente (suporte ao cliente, FAQs, busca em documentacao), cachear respostas anteriores por similaridade semantica pode servir 20-40% das requisicoes do cache com custo zero de API. Ferramentas como GPTCache ou um vector store simples podem implementar isso.
7. Fragmente e filtre documentos antes da injecao
Enviar documentos inteiros como contexto e caro e frequentemente contraproducente — modelos tem dificuldade com contextos muito longos. Use um pipeline de geracao aumentada por recuperacao (RAG) para extrair apenas os 2-5 chunks mais relevantes para cada consulta usando um banco de dados vetorial e um modelo de embedding barato. Isso reduz tokens de entrada dramaticamente enquanto frequentemente melhora a qualidade das respostas.
Calcule Sua Contagem de Tokens
Antes de estimar custos de API com precisao, voce precisa saber quantos tokens seus prompts e documentos realmente contem. Cole qualquer texto — prompts de sistema, documentos, codigo ou exemplos de conversa — no Contador de Tokens de IA do devbit.dev para ver instantaneamente contagens de tokens em todos os principais modelos de IA e obter estimativas de custo por chamada.
Conte Tokens e Estime Custos de API
Cole seu prompt ou documento para ver contagens exatas de tokens para GPT-4o, Claude, Gemini e mais de 10 modelos. Compare uso de janela de contexto e estime custos — 100% gratuito, sem necessidade de chave de API.
Abrir Contador de Tokens de IA →Ferramentas Relacionadas
- Contador de Tokens de IA — conte tokens para GPT-4o, Claude, Gemini e estime custos de API instantaneamente
- Decodificador JWT — decodifique e inspecione tokens de autenticacao da API OpenAI
- Inspetor ENV — valide OPENAI_API_KEY e outras variaveis de ambiente de API de IA
- Formatador JSON — formate e valide payloads de requisicao e resposta de API de IA
- Ver todas as ferramentas gratuitas