AI API料金の仕組み
主要なAIプロバイダー — OpenAI、Anthropic、Google — はいずれも、文字数、単語数、リクエスト数ではなくトークンに基づいてAPI使用料を課金します。トークンは言語モデルが処理するテキストの基本単位です。英語では1トークンはおよそ4文字、0.75語に相当します。日本語では1文字がおよそ1〜3トークンになります。
料金は常に100万トークンあたりのドル($/1Mトークン)で表記され、2つの料金に分かれています:
- 入力トークン(プロンプトトークン):リクエストに含まれるすべてのトークン — システムプロンプト、会話履歴、ユーザーメッセージ、注入したコンテキスト。
- 出力トークン(完了トークン):モデルがレスポンスで生成するすべてのトークン。別途課金され、通常は入力トークンの3〜5倍高額です。
この区別を理解することがコスト見積もりの鍵です。長いレスポンスを生成するチャットボット、冗長な出力のコードジェネレーター、詳細な要約ツールは、入力トークンよりも出力トークンにはるかに多くの費用がかかります。
目安:ほとんどの本番アプリケーションでは、コストの内訳は金額ベースでおよそ入力30%/出力70%と想定してください。出力トークンの方がはるかに高額だからです。
OpenAI API料金 2026年
OpenAIはGPT-4ファミリーおよび推論(oシリーズ)ファミリーのモデルを提供しています。以下はすべて標準API料金です。Batch APIは24時間のターンアラウンドで約50%安くなります。
| モデル | 入力(100万トークンあたり) | 出力(100万トークンあたり) | コンテキストウィンドウ |
|---|---|---|---|
| GPT-4o | $2.50 | $10.00 | 128Kトークン |
| GPT-4o mini | $0.15 | $0.60 | 128Kトークン |
| o1 | $15.00 | $60.00 | 200Kトークン |
| o3-mini | $1.10 | $4.40 | 200Kトークン |
| GPT-4o(キャッシュ入力) | $1.25 | $10.00 | 128Kトークン |
GPT-4o miniはほとんどのタスクでGPT-4oの80〜85%の品質を94%低いコストで提供します。絶対的な最高性能が不要な大量処理 — 分類、抽出、シンプルなQ&A — では、コスト重視のチームにとってGPT-4o miniがデフォルトの選択肢です。o1およびo3推論モデルは、複雑な数学、コード、多段階ロジックタスク向けに設計されています。
Anthropic Claude API料金
AnthropicはClaude 3.5およびClaude 3モデルファミリーをOpenAIと同様の価格構造で提供しています。Claudeモデルは全ティアで200Kトークンのコンテキストウィンドウがあり、長文コンテキストタスクで特に競争力があります。
| モデル | 入力(100万トークンあたり) | 出力(100万トークンあたり) | コンテキストウィンドウ |
|---|---|---|---|
| Claude 3.5 Sonnet | $3.00 | $15.00 | 200Kトークン |
| Claude 3.5 Haiku | $0.80 | $4.00 | 200Kトークン |
| Claude 3 Opus | $15.00 | $75.00 | 200Kトークン |
| Claude 3.5 Sonnet(キャッシュ) | $0.30 | $15.00 | 200Kトークン |
Anthropicのプロンプトキャッシュ機能は最も強力なコスト削減ツールの一つです。繰り返しのプロンプトプレフィックス — 長いシステムプロンプトや注入ドキュメントなど — は標準入力料金の約10%でキャッシュされます。同じ大きなコンテキストを繰り返し送信するアプリケーション(RAGパイプライン、ドキュメント分析)では、プロンプトキャッシュにより70〜90%のコスト削減が可能です。
Google Gemini API料金
Google Geminiは充実した無料ティアと業界最大のコンテキストウィンドウ(Gemini 1.5 Proで最大200万トークン)が特長です。Gemini 1.5モデルでは128K未満のリクエストは標準料金、それを超えるコンテキストは割増料金です。
| モデル | 入力(100万トークンあたり) | 出力(100万トークンあたり) | コンテキストウィンドウ |
|---|---|---|---|
| Gemini 1.5 Pro(128K以下) | $1.25 | $5.00 | 2Mトークン |
| Gemini 1.5 Pro(128K超) | $2.50 | $10.00 | 2Mトークン |
| Gemini 1.5 Flash(128K以下) | $0.075 | $0.30 | 1Mトークン |
| Gemini 2.0 Flash | $0.10 | $0.40 | 1Mトークン |
| Gemini 1.5 Flash(無料ティア) | $0.00 | $0.00 | レート制限あり |
Gemini 1.5 Flashは標準コンテキストサイズにおいて、3大プロバイダーの中で最も手頃な本番対応モデルです($0.075/100万入力トークン)。コスト最重視のワークロードでは、特定のタスクでFlashをGPT-4o miniやClaude 3.5 Haikuとベンチマーク比較する価値があります。
入力トークンと出力トークンのコスト差
入力トークンと出力トークンの価格非対称性は、AI APIコストモデリングで最も重要かつ見落とされがちな要因の一つです。3大プロバイダーすべてで、出力トークンは入力トークンの3〜5倍高額です:
- GPT-4o:入力 $2.50 / 出力 $10.00 — 4倍の出力プレミアム
- Claude 3.5 Sonnet:入力 $3.00 / 出力 $15.00 — 5倍の出力プレミアム
- Gemini 1.5 Pro:入力 $1.25 / 出力 $5.00 — 4倍の出力プレミアム
このプレミアムが存在するのは、出力トークンの生成は入力トークンの処理よりも計算コストが高いためです — モデルは生成するすべてのトークンに対して完全な自己回帰サンプリングプロセスを実行する必要がありますが、入力処理は並列化されています。
実用的な意味:アプリケーションが長いレスポンスを生成する場合(詳細な要約、冗長なコード、多段階の説明)、出力トークンのコストが支配的になります。平均レスポンス長の削減 — 明示的な長さ指示、構造化出力フォーマット、短い要約の使用 — は最大のコスト要素を直接削減します。
APIコストの見積もり方法
単一のAPI呼び出しのコスト見積もりには以下の計算式を使用します:
Cost = (input_tokens / 1,000,000 x input_price)
+ (output_tokens / 1,000,000 x output_price)
計算例 — 500トークンのシステムプロンプト、200トークンのユーザーメッセージ、1,500トークンのレスポンスでGPT-4oを呼び出す場合:
Input tokens: 500 (system) + 200 (user) = 700 tokens
Output tokens: 1,500 tokens
Cost = (700 / 1,000,000 x $2.50) + (1,500 / 1,000,000 x $10.00)
= $0.00175 + $0.01500
= $0.01675 per call
At 10,000 calls/month: $0.01675 x 10,000 = $167.50/month
同じワークロードをGPT-4o miniで:
Cost = (700 / 1,000,000 x $0.15) + (1,500 / 1,000,000 x $0.60)
= $0.000105 + $0.000900
= $0.001005 per call
At 10,000 calls/month: $0.001005 x 10,000 = $10.05/month
モデルの選択だけで16倍のコスト差が生じます。常にまず安価なモデルでベンチマークしてください — 多くの本番ユースケースはGPT-4o miniやGemini 1.5 Flashで十分に動作します。
APIコストを削減する7つの方法
1. タスクに適したモデルを選択
フロンティアモデル(GPT-4o、Claude 3.5 Sonnet)はその能力が本当に必要なタスクにのみ使用してください。分類、抽出、シンプルなQ&AはGPT-4o mini、Gemini Flash、Claude Haikuにルーティング。リクエストの複雑さを事前に分類するルーティングレイヤーで60〜80%のコスト削減が可能です。
2. プロンプトキャッシュを有効化
OpenAIとAnthropicの両方が繰り返しプレフィックスのプロンプトキャッシュを提供しています。アプリケーションが毎リクエストで同じシステムプロンプトやドキュメントコンテキストを送信する場合、キャッシュされたトークンは未キャッシュの50〜90%安くなります。
3. システムプロンプトを圧縮・最適化
システムプロンプトは会話の各ターンで課金されます。1,000トークンのシステムプロンプトが20ターンの会話では、プロンプトだけで20,000入力トークンのコストがかかります。冗長な指示を削除し、散文の代わりに箇条書きを使用し、最初のユーザーターンのfew-shotで処理できる例を省略してください。
4. 出力長を明示的に制限
モデルに簡潔さを指示してください。冗長さが不要なタスクでは「2〜3文で回答」や「100語以内で回答」などのフレーズをプロンプトに追加します。max_tokensパラメータで出力長にハードキャップを設定し、コストの暴走を防止してください。
5. Batch APIを使用
OpenAIのBatch APIおよび同様の非同期処理エンドポイントは、24時間のターンアラウンドを許容できるワークロードに50%割引を提供します。ドキュメント処理、データ抽出、分類パイプライン、夜間レポート生成はバッチ処理の優れた候補です。
6. セマンティックキャッシュを実装
ユーザーが類似の質問を繰り返し尋ねるアプリケーション(カスタマーサポート、FAQ、ドキュメント検索)では、セマンティック類似性で過去のレスポンスをキャッシュすることで、20〜40%のリクエストをAPI呼び出しゼロのキャッシュから配信できます。GPTCacheやシンプルなベクトルストアで実装可能です。
7. ドキュメントを注入前にチャンク化・フィルタリング
ドキュメント全体をコンテキストとして送信するのは高コストで、しばしば逆効果です — モデルは非常に長いコンテキストの処理に苦労します。ベクトルデータベースと安価な埋め込みモデルを使用したRAG(検索拡張生成)パイプラインで、各クエリに最も関連性の高い2〜5チャンクのみを抽出してください。これにより入力トークンが大幅に削減され、回答の品質も向上することが多いです。
トークン数を計算する
APIコストを正確に見積もるには、プロンプトやドキュメントに実際に何トークン含まれているかを知る必要があります。テキスト — システムプロンプト、ドキュメント、コード、会話例 — をdevbit.devのAIトークンカウンターにペーストすれば、全主要AIモデルのトークン数と1回あたりのコスト見積もりを即座に確認できます。
トークン数をカウント & APIコストを見積もり
プロンプトやドキュメントをペーストして、GPT-4o、Claude、Geminiなど10+モデルの正確なトークン数を確認。コンテキストウィンドウ使用率の比較やコスト見積もりも — 100%無料、APIキー不要。
AIトークンカウンターを開く →関連開発者ツール
- AIトークンカウンター — GPT-4o、Claude、GeminiのトークンをカウントしてAPIコストを即座に見積もり
- JWTデコーダー — OpenAI API認証トークンをデコード・検証
- ENV インスペクター — OPENAI_API_KEYなどAI API環境変数を検証
- JSONフォーマッター — AI APIリクエスト・レスポンスのペイロードを整形・検証
- 全ての無料開発者ツールを見る