Precios de la API de ChatGPT: ¿Cuánto cuestan los tokens? (Guía 2026)

Publicado en marzo 2026 • 9 min de lectura

Cómo funcionan los precios de las APIs de IA

Todos los principales proveedores de IA — OpenAI, Anthropic y Google — cobran por el uso de la API en base a tokens, no caracteres, palabras o solicitudes. Un token es la unidad fundamental de texto que procesan los modelos de lenguaje. En inglés, 1 token equivale aproximadamente a 4 caracteres o 0.75 palabras. La frase "Hello, world!" tiene aproximadamente 4 tokens. Un artículo de blog de 1,000 palabras equivale a unos 1,300 tokens.

Los precios siempre se expresan como dólares por millón de tokens ($/1M tokens), divididos en dos tarifas separadas:

  • Tokens de entrada (tokens de prompt): Cada token en tu solicitud — system prompt, historial de conversación, mensaje del usuario y cualquier contexto que inyectes.
  • Tokens de salida (tokens de completado): Cada token que el modelo genera en su respuesta. Se facturan por separado y son típicamente de 3 a 5 veces más caros por token que los tokens de entrada.

Entender esta distinción es crucial para estimar costos. Un chatbot que genera respuestas largas, un generador de código con salida verbosa o una herramienta de resumen con resúmenes detallados gastará mucho más en tokens de salida que en tokens de entrada.

Regla general: Para la mayoría de las aplicaciones en producción, asume que tus costos se dividen aproximadamente 30% entrada / 70% salida por monto en dólares, porque los tokens de salida cuestan mucho más por token.

Precios de la API de OpenAI 2026

OpenAI ofrece una gama de modelos en las familias GPT-4 y de razonamiento (serie o). Todos los precios a continuación son para acceso estándar de la API. Los precios de la API Batch son aproximadamente un 50% más baratos con entrega en 24 horas.

Modelo Entrada (por 1M tokens) Salida (por 1M tokens) Ventana de contexto
GPT-4o $2.50 $10.00 128K tokens
GPT-4o mini $0.15 $0.60 128K tokens
o1 $15.00 $60.00 200K tokens
o3-mini $1.10 $4.40 200K tokens
GPT-4o (entrada cacheada) $1.25 $10.00 128K tokens

GPT-4o mini ofrece aproximadamente el 80-85% de la calidad de GPT-4o en la mayoría de las tareas con un costo 94% menor. Para aplicaciones de alto volumen donde no se requiere el máximo rendimiento absoluto — clasificación, extracción, preguntas y respuestas simples — GPT-4o mini es la opción predeterminada para equipos conscientes del costo. Los modelos de razonamiento o1 y o3 están diseñados específicamente para tareas complejas de matemáticas, código y lógica de múltiples pasos, con precios premium que reflejan su computación interna de cadena de pensamiento.

Precios de la API de Anthropic Claude

Anthropic fija precios para sus familias de modelos Claude 3.5 y Claude 3 de manera similar a OpenAI, con un nivel rápido/económico y un nivel capaz/costoso. Los modelos Claude son particularmente competitivos para tareas de contexto largo dada su ventana de contexto de 200K tokens en todos los niveles.

Modelo Entrada (por 1M tokens) Salida (por 1M tokens) Ventana de contexto
Claude 3.5 Sonnet $3.00 $15.00 200K tokens
Claude 3.5 Haiku $0.80 $4.00 200K tokens
Claude 3 Opus $15.00 $75.00 200K tokens
Claude 3.5 Sonnet (cacheado) $0.30 $15.00 200K tokens

La función de cacheo de prompts de Anthropic es una de las herramientas de reducción de costos más poderosas disponibles: los prefijos de prompt repetidos — como system prompts largos o documentos inyectados — se cachean a aproximadamente el 10% de la tarifa estándar de entrada. Las aplicaciones que envían el mismo contexto largo repetidamente (pipelines RAG, análisis de documentos) pueden ver reducciones de costo del 70-90% con el cacheo de prompts habilitado.

Precios de la API de Google Gemini

Google Gemini se destaca con un generoso nivel gratuito y las ventanas de contexto más grandes de la industria (hasta 2 millones de tokens para Gemini 1.5 Pro). Los precios escalan con el uso de la ventana de contexto para los modelos Gemini 1.5: las solicitudes de menos de 128K tokens se facturan a la tarifa estándar; los contextos más largos se facturan a una tarifa más alta.

Modelo Entrada (por 1M tokens) Salida (por 1M tokens) Ventana de contexto
Gemini 1.5 Pro (≤128K) $1.25 $5.00 2M tokens
Gemini 1.5 Pro (>128K) $2.50 $10.00 2M tokens
Gemini 1.5 Flash (≤128K) $0.075 $0.30 1M tokens
Gemini 2.0 Flash $0.10 $0.40 1M tokens
Gemini 1.5 Flash (nivel gratuito) $0.00 $0.00 Con límite de tasa

Gemini 1.5 Flash es el modelo listo para producción más económico entre los tres proveedores para tamaños de contexto estándar, a $0.075/1M tokens de entrada. Para cargas de trabajo extremadamente sensibles al costo, vale la pena hacer benchmarks de Flash contra GPT-4o mini y Claude 3.5 Haiku para tu tarea específica.

Costos de tokens de entrada vs salida

La asimetría de precios entre tokens de entrada y salida es uno de los factores más importantes — y más frecuentemente ignorados — en el modelado de costos de APIs de IA. En los tres proveedores principales, los tokens de salida cuestan de 3 a 5 veces más por token que los tokens de entrada:

  • GPT-4o: Entrada $2.50 / Salida $10.00 — prima de salida de 4x
  • Claude 3.5 Sonnet: Entrada $3.00 / Salida $15.00 — prima de salida de 5x
  • Gemini 1.5 Pro: Entrada $1.25 / Salida $5.00 — prima de salida de 4x

Esta prima existe porque generar tokens de salida es computacionalmente más costoso que procesar tokens de entrada — el modelo debe ejecutar el proceso completo de muestreo autorregresivo para cada token que genera, mientras que el procesamiento de entrada está paralelizado.

La implicación práctica: si tu aplicación genera respuestas largas (resúmenes detallados, código verboso, explicaciones de múltiples pasos), tus costos de tokens de salida dominarán. Reducir la longitud promedio de respuesta — mediante instrucciones explícitas de longitud, formatos de salida estructurados o resúmenes más cortos — reduce directamente tu mayor componente de costo.

Cómo estimar tus costos de API

Usa esta fórmula para estimar el costo de una sola llamada a la API:

Costo = (tokens_entrada / 1,000,000 × precio_entrada)
      + (tokens_salida / 1,000,000 × precio_salida)

Ejemplo práctico — una llamada a GPT-4o con un system prompt de 500 tokens, un mensaje de usuario de 200 tokens y una respuesta de 1,500 tokens:

Tokens de entrada:  500 (system) + 200 (usuario) = 700 tokens
Tokens de salida: 1,500 tokens

Costo = (700 / 1,000,000 × $2.50) + (1,500 / 1,000,000 × $10.00)
      = $0.00175 + $0.01500
      = $0.01675 por llamada

A 10,000 llamadas/mes: $0.01675 × 10,000 = $167.50/mes

La misma carga de trabajo en GPT-4o mini:

Costo = (700 / 1,000,000 × $0.15) + (1,500 / 1,000,000 × $0.60)
      = $0.000105 + $0.000900
      = $0.001005 por llamada

A 10,000 llamadas/mes: $0.001005 × 10,000 = $10.05/mes

Solo la elección del modelo produce una diferencia de costo de 16x. Siempre haz benchmarks con modelos más económicos primero — muchos casos de uso en producción funcionan aceptablemente con GPT-4o mini o Gemini 1.5 Flash.

7 formas de reducir los costos de API

1. Elige el modelo correcto para la tarea

Usa modelos de frontera (GPT-4o, Claude 3.5 Sonnet) solo para tareas que genuinamente requieran su capacidad. Enruta clasificación, extracción y preguntas y respuestas simples a GPT-4o mini, Gemini Flash o Claude Haiku. Una capa de enrutamiento que clasifique primero la complejidad de la solicitud puede reducir costos en un 60-80%.

2. Habilita el cacheo de prompts

Tanto OpenAI como Anthropic ofrecen cacheo de prompts para prefijos repetidos. Si tu aplicación envía el mismo system prompt o contexto de documento en cada solicitud, los tokens cacheados cuestan 50-90% menos que los no cacheados. Prefija tus prompts con el contenido estable que puede ser cacheado.

3. Comprime y optimiza los system prompts

Los system prompts se facturan en cada turno de una conversación. Un system prompt de 1,000 tokens en una conversación de 20 turnos cuesta 20,000 tokens de entrada solo por el prompt. Audita tus system prompts: elimina instrucciones redundantes, usa viñetas en lugar de prosa y elimina ejemplos que pueden manejarse con few-shot en el primer turno del usuario.

4. Limita la longitud de salida explícitamente

Instruye al modelo para que sea conciso. Agrega frases como "Responde en 2-3 oraciones" o "Responde en menos de 100 palabras" a tus prompts para tareas donde la verbosidad no es necesaria. Usa el parámetro max_tokens para limitar la longitud de salida y prevenir costos de generación descontrolados.

5. Usa la API Batch

La API Batch de OpenAI y endpoints de procesamiento asíncrono similares ofrecen descuentos del 50% para cargas de trabajo que pueden tolerar un tiempo de entrega de 24 horas. Procesamiento de documentos, extracción de datos, pipelines de clasificación y generación de informes nocturnos son excelentes candidatos para el procesamiento por lotes.

6. Implementa cacheo semántico

Para aplicaciones donde los usuarios hacen preguntas similares repetidamente (soporte al cliente, preguntas frecuentes, búsqueda de documentación), cachear respuestas anteriores por similitud semántica puede servir el 20-40% de las solicitudes desde caché a costo cero de API. Herramientas como GPTCache o un simple vector store pueden implementar esto.

7. Fragmenta y filtra documentos antes de la inyección

Enviar documentos completos como contexto es costoso y a menudo contraproducente — los modelos tienen dificultades con contextos muy largos. Usa un pipeline de generación aumentada por recuperación (RAG) para extraer solo los 2-5 fragmentos más relevantes para cada consulta usando una base de datos vectorial y un modelo de embeddings económico. Esto reduce los tokens de entrada dramáticamente mientras a menudo mejora la calidad de las respuestas.

Calcula tu conteo de tokens

Antes de poder estimar los costos de API con precisión, necesitas saber cuántos tokens contienen realmente tus prompts y documentos. Pega cualquier texto — system prompts, documentos, código o ejemplos de conversación — en el Contador de Tokens de IA de devbit.dev para ver instantáneamente los conteos de tokens en todos los principales modelos de IA y obtener estimaciones de costo por llamada.

Cuenta tokens y estima costos de API

Pega tu prompt o documento para ver conteos exactos de tokens para GPT-4o, Claude, Gemini y más de 10 modelos. Compara el uso de la ventana de contexto y estima costos — 100% gratis, sin necesidad de API key.

Abrir contador de tokens de IA →

Herramientas de desarrollo relacionadas