ChatGPT API 가격: 토큰 비용은 얼마입니까? (2026 가이드)

2026년 3월 게시 • 읽기 9분

AI API 가격 책정 방식

모든 주요 AI 제공업체 — OpenAI, Anthropic, Google — 는 문자, 단어 또는 요청이 아닌 토큰 기반으로 API 사용 요금을 부과합니다. 토큰은 언어 모델이 처리하는 텍스트의 기본 단위입니다. 영어에서 1 토큰은 대략 4자 또는 0.75단어에 해당합니다. "Hello, world!"라는 구문은 약 4토큰입니다. 1,000단어 블로그 글은 약 1,300토큰입니다.

가격은 항상 100만 토큰당 달러($/1M 토큰)로 표시되며, 두 가지 별도 요금으로 나뉩니다:

  • 입력 토큰 (프롬프트 토큰): 요청의 모든 토큰 — 시스템 프롬프트, 대화 기록, 사용자 메시지, 주입된 컨텍스트.
  • 출력 토큰 (완성 토큰): 모델이 응답에서 생성하는 모든 토큰. 별도로 청구되며 일반적으로 입력 토큰보다 토큰당 3~5배 더 비쌉니다.

이 구분을 이해하는 것은 비용 추정에 매우 중요합니다. 긴 응답을 생성하는 챗봇, 장황한 출력을 가진 코드 생성기, 상세한 요약을 제공하는 요약 도구는 입력 토큰보다 출력 토큰에 훨씬 더 많은 비용을 지출합니다.

경험 법칙: 대부분의 프로덕션 애플리케이션에서 비용은 금액 기준으로 대략 입력 30% / 출력 70%로 분배된다고 가정하십시오. 출력 토큰의 토큰당 비용이 훨씬 높기 때문입니다.

OpenAI API 가격 2026

OpenAI는 GPT-4 및 추론(o 시리즈) 제품군에 걸쳐 다양한 모델을 제공합니다. 아래 모든 가격은 표준 API 접근 기준입니다. Batch API 가격은 24시간 소요 시간으로 약 50% 저렴합니다.

모델 입력 (100만 토큰당) 출력 (100만 토큰당) 컨텍스트 윈도우
GPT-4o $2.50 $10.00 128K 토큰
GPT-4o mini $0.15 $0.60 128K 토큰
o1 $15.00 $60.00 200K 토큰
o3-mini $1.10 $4.40 200K 토큰
GPT-4o (캐시된 입력) $1.25 $10.00 128K 토큰

GPT-4o mini는 대부분의 작업에서 GPT-4o 품질의 약 80-85%를 94% 낮은 비용으로 제공합니다. 최상의 성능이 필수적이지 않은 대량 애플리케이션 — 분류, 추출, 간단한 Q&A — 의 경우 GPT-4o mini가 비용을 고려하는 팀의 기본 선택입니다. o1 및 o3 추론 모델은 복잡한 수학, 코드, 다단계 논리 작업에 특화되어 있으며 내부 추론 연산을 반영하는 프리미엄 가격이 적용됩니다.

Anthropic Claude API 가격

Anthropic은 Claude 3.5 및 Claude 3 모델 제품군을 OpenAI와 유사하게 빠른/저렴한 모델과 고성능/고가격 모델로 구분하여 가격을 책정합니다. Claude 모델은 모든 등급에서 200K 토큰 컨텍스트 윈도우를 제공하여 장문 컨텍스트 작업에 특히 경쟁력이 있습니다.

모델 입력 (100만 토큰당) 출력 (100만 토큰당) 컨텍스트 윈도우
Claude 3.5 Sonnet $3.00 $15.00 200K 토큰
Claude 3.5 Haiku $0.80 $4.00 200K 토큰
Claude 3 Opus $15.00 $75.00 200K 토큰
Claude 3.5 Sonnet (캐시됨) $0.30 $15.00 200K 토큰

Anthropic의 프롬프트 캐싱 기능은 사용 가능한 가장 강력한 비용 절감 도구 중 하나입니다. 긴 시스템 프롬프트나 주입된 문서 같은 반복되는 프롬프트 접두사가 표준 입력 요금의 약 10%로 캐시됩니다. 동일한 대규모 컨텍스트를 반복적으로 보내는 애플리케이션(RAG 파이프라인, 문서 분석)은 프롬프트 캐싱을 활성화하면 70-90%의 비용 절감을 볼 수 있습니다.

Google Gemini API 가격

Google Gemini는 넉넉한 무료 등급과 업계 최대의 컨텍스트 윈도우(Gemini 1.5 Pro의 경우 최대 200만 토큰)가 특징입니다. Gemini 1.5 모델의 가격은 컨텍스트 윈도우 사용량에 따라 달라집니다. 128K 토큰 이하 요청은 표준 요금이 적용되고, 더 큰 컨텍스트는 더 높은 요금이 적용됩니다.

모델 입력 (100만 토큰당) 출력 (100만 토큰당) 컨텍스트 윈도우
Gemini 1.5 Pro (≤128K) $1.25 $5.00 2M 토큰
Gemini 1.5 Pro (>128K) $2.50 $10.00 2M 토큰
Gemini 1.5 Flash (≤128K) $0.075 $0.30 1M 토큰
Gemini 2.0 Flash $0.10 $0.40 1M 토큰
Gemini 1.5 Flash (무료 등급) $0.00 $0.00 속도 제한

Gemini 1.5 Flash는 표준 컨텍스트 크기에서 세 제공업체 중 가장 저렴한 프로덕션급 모델로, 입력 토큰 100만당 $0.075입니다. 매우 비용에 민감한 워크로드의 경우 특정 작업에 대해 Flash를 GPT-4o mini 및 Claude 3.5 Haiku와 벤치마킹해 볼 가치가 있습니다.

입력 토큰 vs 출력 토큰 비용

입력 토큰과 출력 토큰 간의 가격 비대칭은 AI API 비용 모델링에서 가장 중요하면서도 가장 간과되는 요소 중 하나입니다. 세 주요 제공업체 모두 출력 토큰이 입력 토큰보다 토큰당 3~5배 더 비쌉니다:

  • GPT-4o: 입력 $2.50 / 출력 $10.00 — 4배 출력 프리미엄
  • Claude 3.5 Sonnet: 입력 $3.00 / 출력 $15.00 — 5배 출력 프리미엄
  • Gemini 1.5 Pro: 입력 $1.25 / 출력 $5.00 — 4배 출력 프리미엄

이 프리미엄이 존재하는 이유는 출력 토큰 생성이 입력 토큰 처리보다 연산 비용이 더 높기 때문입니다 — 모델은 생성하는 모든 토큰에 대해 전체 자기회귀 샘플링 과정을 실행해야 하지만, 입력 처리는 병렬화됩니다.

실질적인 의미: 애플리케이션이 긴 응답(상세한 요약, 장황한 코드, 다단계 설명)을 생성하는 경우 출력 토큰 비용이 지배적일 것입니다. 평균 응답 길이를 줄이면 — 명시적인 길이 지시, 구조화된 출력 형식 또는 짧은 요약을 통해 — 가장 큰 비용 요소를 직접 절감할 수 있습니다.

API 비용 추정 방법

단일 API 호출의 비용을 추정하려면 다음 공식을 사용하십시오:

비용 = (입력_토큰 / 1,000,000 x 입력_가격)
     + (출력_토큰 / 1,000,000 x 출력_가격)

계산 예시 — 500토큰 시스템 프롬프트, 200토큰 사용자 메시지, 1,500토큰 응답의 GPT-4o 호출:

입력 토큰:  500 (시스템) + 200 (사용자) = 700 토큰
출력 토큰: 1,500 토큰

비용 = (700 / 1,000,000 x $2.50) + (1,500 / 1,000,000 x $10.00)
     = $0.00175 + $0.01500
     = $0.01675 / 호출

월 10,000회 호출 시: $0.01675 x 10,000 = $167.50/월

동일한 워크로드를 GPT-4o mini에서 실행하는 경우:

비용 = (700 / 1,000,000 x $0.15) + (1,500 / 1,000,000 x $0.60)
     = $0.000105 + $0.000900
     = $0.001005 / 호출

월 10,000회 호출 시: $0.001005 x 10,000 = $10.05/월

모델 선택만으로 16배의 비용 차이가 발생합니다. 항상 저렴한 모델부터 벤치마킹하십시오 — 많은 프로덕션 사용 사례가 GPT-4o mini 또는 Gemini 1.5 Flash에서 충분히 수행됩니다.

API 비용을 줄이는 7가지 방법

1. 작업에 적합한 모델 선택

프론티어 모델(GPT-4o, Claude 3.5 Sonnet)은 그 성능이 실제로 필요한 작업에만 사용하십시오. 분류, 추출, 간단한 Q&A는 GPT-4o mini, Gemini Flash 또는 Claude Haiku로 라우팅하십시오. 요청 복잡도를 먼저 분류하는 라우팅 레이어가 비용을 60-80% 절감할 수 있습니다.

2. 프롬프트 캐싱 활성화

OpenAI와 Anthropic 모두 반복되는 접두사에 대한 프롬프트 캐싱을 제공합니다. 애플리케이션이 모든 요청에 동일한 시스템 프롬프트나 문서 컨텍스트를 보내는 경우, 캐시된 토큰은 캐시되지 않은 것보다 50-90% 저렴합니다. 캐시 가능한 안정적인 콘텐츠를 프롬프트 앞부분에 배치하십시오.

3. 시스템 프롬프트 압축 및 최적화

시스템 프롬프트는 대화의 모든 턴에서 과금됩니다. 20턴 대화에서 1,000토큰 시스템 프롬프트는 프롬프트만으로 20,000 입력 토큰이 소모됩니다. 시스템 프롬프트를 점검하십시오: 중복 지시를 제거하고, 산문 대신 글머리 기호를 사용하고, 첫 번째 사용자 턴에서 few-shot으로 처리할 수 있는 예제를 제거하십시오.

4. 출력 길이를 명시적으로 제한

모델에 간결하게 답하도록 지시하십시오. 장황함이 필요하지 않은 작업의 프롬프트에 "2-3문장으로 답하십시오" 또는 "100단어 이내로 응답하십시오" 같은 문구를 추가하십시오. max_tokens 매개변수를 사용하여 출력 길이를 하드 캡으로 설정하고 생성 비용 폭주를 방지하십시오.

5. Batch API 사용

OpenAI의 Batch API 및 유사한 비동기 처리 엔드포인트는 24시간 소요를 허용하는 워크로드에 50% 할인을 제공합니다. 문서 처리, 데이터 추출, 분류 파이프라인, 야간 보고서 생성이 배치 처리에 적합한 후보입니다.

6. 시맨틱 캐싱 구현

사용자가 반복적으로 유사한 질문을 하는 애플리케이션(고객 지원, FAQ, 문서 검색)의 경우, 시맨틱 유사도 기반으로 이전 응답을 캐싱하면 요청의 20-40%를 API 비용 없이 캐시에서 제공할 수 있습니다. GPTCache 또는 간단한 벡터 스토어로 구현할 수 있습니다.

7. 문서를 청크 분할 및 필터링 후 주입

전체 문서를 컨텍스트로 보내는 것은 비용이 많이 들고 종종 역효과가 납니다 — 모델은 매우 긴 컨텍스트에서 어려움을 겪습니다. RAG(검색 증강 생성) 파이프라인을 사용하여 벡터 데이터베이스와 저렴한 임베딩 모델로 각 쿼리에 가장 관련성 높은 2-5개 청크만 추출하십시오. 이것은 입력 토큰을 크게 줄이면서 종종 답변 품질도 향상시킵니다.

토큰 수 계산하기

API 비용을 정확하게 추정하려면 프롬프트와 문서에 실제로 포함된 토큰 수를 알아야 합니다. 시스템 프롬프트, 문서, 코드 또는 대화 예제 등 어떤 텍스트든 devbit.dev AI 토큰 카운터에 붙여넣어 모든 주요 AI 모델에 대한 토큰 수를 즉시 확인하고 호출당 비용을 추정하십시오.

토큰 수 계산 & API 비용 추정

프롬프트나 문서를 붙여넣어 GPT-4o, Claude, Gemini 및 10개 이상의 모델에 대한 정확한 토큰 수를 확인하십시오. 컨텍스트 윈도우 사용량을 비교하고 비용을 추정하십시오 — 100% 무료, API 키 불필요.

AI 토큰 카운터 열기 →

관련 개발자 도구