社内チャットボットや文書生成など、生成AIの活用企画を進める中で「ランニングコスト(API利用料)はいくらかかるのか」と問われ、答えに詰まった経験はないでしょうか。開発会社からの見積もりに「API利用料は別途実費」と書かれているものの、その「別途実費」が月いくらになるのか見当がつかず、予算稟議を通せずにいる、という方も多いはずです。
LLM APIの料金が読みにくいのは、定額制ではなく「トークン従量課金」という仕組みで決まるためです。利用すればするほど課金され、しかも入力と出力で単価が違ったり、日本語と英語で消費量が変わったりします。発注者の立場からは、この課金構造がブラックボックスに見え、「運用を始めたら費用が想定外に膨らむのではないか」という不安が拭えません。
ただ、料金が決まる仕組み自体はシンプルな掛け算です。トークン単価と自社の想定利用量さえ把握できれば、計算ツールに頼らずExcelの四則演算で月次費用の概算を出せます。試算の前提を自分の手で組み立てられれば、「月◯万円程度」と根拠付きで稟議資料に書けるようになります。
本記事では、LLM API料金の基本構造(トークン従量課金・Input/Output別単価・日本語のトークン増)から、主要API(ChatGPT・Claude・Gemini)の単価比較、月次費用の計算式、そして社内チャットボットや文書生成・RAGといった業務用途別の月次費用を発注者自身が試算する手順までを解説します。あわせて、コストが膨らむ要因と削減のポイント、開発会社への料金確認チェックリストも整理します。
はじめての AI 導入ガイド――中小企業が失敗しないための7ステップ

この資料でわかること
AI導入を検討しているが「何から始めればよいか分からない」中小企業の意思決定者に対し、導入プロジェクトの全体像を一気通貫で提示し、「自社でも着手できる」という確信と具体的な行動計画を持ってもらうこと。
こんな方におすすめです
- AI導入を検討しているが、何から始めればよいか分からない
- ベンダーの選び方や費用感がつかめず、判断できない
- 社内でAI導入の稟議を通すための資料が必要
入力いただいたメールアドレスにPDFをお送りします。
LLM API料金は「トークン従量課金」で決まる
LLM APIの費用が予測しづらい最大の理由は、料金が「使った分だけ」のトークン従量課金で決まるためです。月額固定のサブスクリプションとは違い、利用量に比例して請求額が変わります。とはいえ計算の骨格は単純で、おおまかには「処理したトークン数 × 単価」で費用が決まります。まずは費用に効く要素だけを押さえましょう。
トークンとは何か
トークンとは、AIが文章を処理するときの最小単位です。「文字」や「単語」とは少しずれた区切りで、AIが扱いやすい形に分割したものと考えてください。料金はこのトークンの数を基準に課金されるため、文字数ではなくトークン数が費用に直結します。
トークン数の目安はモデルや言語によって変わりますが、ざっくりとした感覚として「英語は1単語あたり1トークン前後」「日本語は1文字あたり0.7〜1トークン程度」と考えておくと試算しやすくなります。たとえば日本語400字程度の文章は、おおよそ300〜400トークン前後と見積もれます。あくまで概算ですが、自分で月次費用を出すうえでは十分な精度です。
Input・Outputで単価が違い、日本語はトークンが増えやすい
費用計算で見落としやすいのが、入力(Input)と出力(Output)で単価が異なる点です。AIに渡す質問文や指示文・参照資料が「Input」、AIが返す回答文が「Output」にあたります。一般的にOutput単価はInput単価より高く設定されており、モデルによっては3〜5倍ほどの差があります。そのため「AIにどれだけ長い回答をさせるか」が費用に大きく影響します。
もう一つ重要なのが、日本語は英語より多くのトークンを消費しやすいという点です。同じ意味の文章でも、日本語のほうがトークン数が増える傾向があり、海外のモデルでこの差が出やすくなります。英語前提の料金イメージで試算すると実費が膨らむことがあるため、日本語で運用する場合はトークン数をやや多めに見積もっておくと安全です。
主要LLM APIの料金体系と単価を比較する(ChatGPT・Claude・Gemini)
次に、代表的な3社のLLM API(OpenAIのChatGPT API、AnthropicのClaude API、GoogleのGemini API)の単価を比較します。各社とも「高性能モデル」と「軽量・高速モデル」を用意しており、同じ社内でも用途によって使い分けるのが一般的です。
主要3社の代表モデル単価比較(目安)
以下は2026年5月時点の概算の料金感です。LLM APIの単価は改定が速く、数か月で変わることも珍しくないため、必ず各社公式の料金ページで最新価格を確認してください。
モデル(提供元) | Input単価(1Mトークンあたり) | Output単価(1Mトークンあたり) | 位置づけ |
|---|---|---|---|
GPT-4o(OpenAI) | 約 $2.50 | 約 $10 | 高性能・汎用 |
Claude Sonnet系(Anthropic) | 約 $3 | 約 $15 | 高性能・長文に強い |
Gemini 2.5 Flash(Google) | 約 $0.30 | 約 $2.50 | 軽量・高速・低コスト |
※上記は試算用の目安であり、変動します。最新かつ正確な単価は各社の公式料金ページ(OpenAI Pricing・Anthropic Pricing・Google Gemini API Pricing)で確認してください。
この比較表で注目したいのは、軽量モデル(Gemini 2.5 Flash)と高性能モデル(GPT-4o)でInput単価が約8倍、Output単価も約4倍の差がある点です。さらに長文に強いClaude Sonnet系と比べると差はより広がります。つまり「どのモデルを選ぶか」だけで月額が数倍変わることもあります。高度な推論が必要な業務には高性能モデル、定型的な分類や要約には軽量モデル、というように用途に対して過剰な性能のモデルを避けることが、費用設計の出発点になります。
課金モデルの種類
基本は上記のような従量課金ですが、各社とも費用を抑える仕組みを用意しています。発注者として全てを理解する必要はありませんが、見積もりに影響する代表的なものを押さえておきましょう。
- Batch(バッチ)API: リアルタイム性が不要な大量処理を一括で投げると、通常料金の半額程度になる仕組み。夜間の一括文書処理などに向きます。
- プロンプトキャッシュ: 毎回同じ前提文(システムプロンプトや参照資料)を送る場合、キャッシュを使うと2回目以降のInput費用を大きく削減できます。
- プロビジョンド/専用枠: 大規模・安定運用向けに容量を予約する課金形態。中小規模の利用ではまず従量課金で問題ありません。
これらの最適化が見積もりに織り込まれているかどうかで実費が変わるため、後述の「開発会社への料金確認」で触れます。
月次費用を計算する方法(計算式と基本ステップ)
ここからが本題です。トークン単価がわかったら、自社の想定利用量に当てはめて月次費用を試算します。計算ツールに頼らなくても、次の計算式を分解すればExcelで再現できます。
月次費用の計算式
月次費用は、おおまかに次の式で求められます。
1リクエストあたり費用 =(Inputトークン数 × Input単価)+(Outputトークン数 × Output単価)
月額費用 ≒ 1リクエストあたり費用 × 月間リクエスト数
単価は「1Mトークン(100万トークン)あたり」で表記されているため、計算時はトークン数を100万で割って単価を掛けます。たとえばInput 1,000トークンでInput単価が$2.50/1Mなら、1,000 ÷ 1,000,000 × 2.50 = $0.0025 です。1リクエストあたりは小さな金額でも、月間リクエスト数が積み上がると無視できない額になります。
費用を左右するのは、つまるところ次の4要素です。これらを自分の前提で埋めれば、月次費用の概算が出ます。
- 1リクエストあたりのInputトークン数
- 1リクエストあたりのOutputトークン数
- 採用モデルのInput/Output単価
- 月間リクエスト数
トークン数とリクエスト数の見積もり方
4要素のうち、単価は公式ページから取得できます。残るトークン数とリクエスト数は、手元の前提から次のように見積もります。
トークン数の見積もり: 1リクエストでAIに渡す文章量(質問文+システムプロンプト+参照資料)を文字数で見積もり、トークンに換算します。日本語なら「文字数 × 1」程度を目安にトークン数とすれば、安全側の概算になります。出力トークンは、AIに何文字くらいの回答をさせるかで見積もります。注意したいのは、システムプロンプト(AIへの前提指示)や、後述するRAGの参照文書もInputに含まれる点です。ユーザーが打つ質問文だけで見積もると実費が膨らみます。
月間リクエスト数の見積もり: 「利用人数 × 1人あたりの月間利用回数」で見積もります。社内利用なら「利用人数 × 1日あたり利用回数 × 月間稼働日数(約20日)」と分解すると現実的な数字になります。たとえば100人が1日5回使うなら、100 × 5 × 20 = 月10,000リクエスト です。
この2つの前提さえ置ければ、計算式に当てはめて月額が出ます。次に、代表的な業務用途で実際に試算してみましょう。
業務用途別の月次費用を試算する
ここでは代表的な4つの業務について、利用前提を置いたうえで月次費用のレンジ(軽量モデル↔高性能モデル)を試算します。数値はあくまで概算であり、実際の費用は前提(トークン数・リクエスト数・採用モデル)次第で大きく変動します。自社の使い方に近いケースを選び、人数や回数を置き換えて試算してみてください。なお、為替は1ドル150円換算で円換算の目安を添えます。
社内向けチャットボット・社内FAQの試算例
社員からの質問に答える社内チャットボット/FAQボットを想定します。1回のやり取りで、質問文と簡単な前提(システムプロンプト)を合わせてInput約800トークン、回答(Output)約400トークンと置きます。
前提: 利用人数100人 × 1日5回 × 月20稼働日 = 月10,000リクエスト
採用モデル | 月間Inputトークン | 月間Outputトークン | 月額(目安) |
|---|---|---|---|
軽量モデル(Gemini 2.5 Flash級) | 800万 | 400万 | 約 $12.4(約1,860円) |
高性能モデル(Claude Sonnet級) | 800万 | 400万 | 約 $84(約1.3万円) |
同じ利用量でも、モデル選定で月額が数倍変わることがわかります。社内FAQのような定型的な問い合わせ対応では、軽量モデルでも十分実用に足りるケースが多く、その場合の月額は数千円規模に収まります。
文書生成・要約/RAG(社内文書検索)の試算例
次に、長めの文章を扱う2ケースです。
文書生成・要約: 議事録要約やメール下書き生成などを想定します。1リクエストでInput約2,000トークン、Output約1,000トークンと置き、月3,000リクエスト(例: 30人が1日5回 × 20日)とします。
RAG(社内文書検索): 社内マニュアルや規程を検索して回答するRAGでは、ユーザーの質問に加えて検索でヒットした参照文書がInputに加算されるため、Inputトークンが跳ね上がります。1リクエストでInput約6,000トークン(参照文書込み)、Output約600トークンと置き、月10,000リクエストとします。
ケース | 採用モデル | 月額(目安) |
|---|---|---|
文書生成・要約 | 軽量モデル級 | 約 $9.3(約1,400円) |
文書生成・要約 | 高性能モデル級 | 約 $63(約9,500円) |
RAG(参照文書込み) | 軽量モデル級 | 約 $33(約5,000円) |
RAG(参照文書込み) | 高性能モデル級 | 約 $270(約4万円) |
RAGは「質問は短くても参照文書でInputが膨らむ」のが特徴です。チャットボットと同じリクエスト数でも、参照文書のぶんだけ費用が上がります。RAGを高性能モデルで運用する場合は、月額が他用途より高くなりやすい点を見込んでおきましょう。
コストが膨らむ要因と削減のポイント
試算上は安く見えても、運用を始めると実費が想定を上回ることがあります。なぜ膨らむのか、その仕組みと打ち手をセットで把握しておけば、運用後の不安は大きく減らせます。
試算より高くなる典型パターン
- 会話履歴の累積: チャットでやり取りが続くと、過去の会話を毎回Inputとして送るため、後半のリクエストほどトークンが増えます。
- 長文プロンプト・参照文書の肥大: システムプロンプトやRAGの参照文書が長くなると、1リクエストあたりのInputが増えます。
- 過剰に高性能なモデルの選定: 定型業務に高性能モデルを使うと、必要のない単価を払い続けることになります。
- リトライ・無駄な再生成: エラー時の自動再試行や、満足いく回答が出るまでの再生成も課金対象です。
- 出力の長さが無制限: 回答が想定より長くなると、単価の高いOutputが積み上がります。
コスト削減の具体策
これらは、発注者が開発会社に依頼・確認する形で対策できます。
- 用途に応じたモデル選定: 定型処理は軽量モデル、高度な推論が必要な処理だけ高性能モデル、と使い分ける。
- プロンプトキャッシュの活用: 毎回同じ前提文を送る場合、キャッシュで2回目以降のInput費用を削減する。
- Batch APIの活用: リアルタイム不要の大量処理は半額程度になるBatchで処理する。
- 出力トークン上限の設定: 回答の最大長を制限し、Output費用の暴走を防ぐ。
- 会話履歴の要約・打ち切り: 履歴を一定量で要約・圧縮し、Inputの肥大を抑える。
これらの最適化が実装されているかどうかで、同じ業務でも実費は数倍変わります。発注時には「どの削減策を採用するか」を確認しておくとよいでしょう。
発注前に確認すべき見積もり項目と開発会社への確認チェックリスト
最後に、開発会社の見積もりに「API利用料は別途実費」とあった場合に、発注者が確認すべき観点を整理します。ここを押さえておけば、見積もりの精度を自分で見極められます。
「API実費は別途」を読み解く観点
「別途実費」と書かれている場合、開発費(システム構築の費用)とAPI利用料(運用中に発生する従量課金)は別物だ、という意味です。問題は、その従量課金がどんな前提で算出されるかが見積もりに書かれていないケースが多いことです。前提(想定リクエスト数・採用モデル・トークン見積もり)が共有されていなければ、月額のレンジを判断できません。逆に言えば、前提さえ開発会社と握れれば、本記事の計算式で自分でも妥当性を検証できます。
なお、API連携の実装方法やセキュリティ・運用設計といった「費用以外の発注観点」については、LLM API連携開発の完全ガイドで詳しく解説しています。本記事は料金の試算に絞っているため、連携の進め方とあわせて検討する際はそちらも参照してください。
開発会社への料金確認チェックリスト
見積もり時に、以下を開発会社へ確認することをおすすめします。
- 想定月間リクエスト数の前提: 何人が・どのくらいの頻度で使う前提で算出しているか
- 採用するモデル: 高性能モデルか軽量モデルか。用途に対して過剰でないか
- トークン見積もりの根拠: 1リクエストあたりのInput/Outputトークン数をどう見積もっているか
- 最適化の有無: プロンプトキャッシュ・Batch API・出力上限などのコスト削減策を実装するか
- 利用量急増時の上限・アラート設計: 想定を超えた場合に費用が青天井にならない仕組み(上限設定・アラート)があるか
- API利用料の負担区分と請求方法: API利用料を自社が直接契約・支払いするのか、開発会社経由か。請求はどう行われるか
- 将来の単価改定リスク: 採用モデルが値上げ・提供終了した場合の対応方針
これらを確認できれば、「別途実費」がブラックボックスでなくなり、稟議で説明できる状態になります。
まとめ
LLM API料金の計算は、「トークン単価の理解 → 計算式の把握 → 業務用途別の試算 → 膨らむ要因と削減策 → 発注時の確認」という流れで進めれば、発注者自身で月次費用の概算を出せます。ポイントを振り返ります。
- 料金は「処理したトークン数 × 単価」のトークン従量課金で決まり、Input/Outputで単価が違う
- 主要3社は軽量〜高性能でモデルがあり、モデル選定だけで月額が数倍変わることもある
- 月次費用は「(Input量×単価+Output量×単価)×月間リクエスト数」で試算でき、Excelで再現できる
- RAGは参照文書がInputに加算されるため割高になりやすい
- 膨らむ要因(履歴累積・長文・過剰なモデル)と削減策(キャッシュ・Batch・出力上限)をセットで押さえる
- 開発会社にはチェックリストの観点で前提を確認する
なお、本記事が扱ったのはAPI利用(推論)の従量課金コストです。AIモデルを自社向けに学習・調整する場合の費用は性質が異なります。学習コストと推論コストの違いや発注時の予算設計については、AI学習コスト・推論コストとは?2つの違いと発注時の予算設計ポイントで解説していますので、AI活用の全体予算を組む際はあわせてご覧ください。
LLM API料金は変動が速いため、実際の試算では必ず各社公式の料金ページで最新単価を確認したうえで、本記事の計算式に当てはめてみてください。
はじめての AI 導入ガイド――中小企業が失敗しないための7ステップ

この資料でわかること
AI導入を検討しているが「何から始めればよいか分からない」中小企業の意思決定者に対し、導入プロジェクトの全体像を一気通貫で提示し、「自社でも着手できる」という確信と具体的な行動計画を持ってもらうこと。
こんな方におすすめです
- AI導入を検討しているが、何から始めればよいか分からない
- ベンダーの選び方や費用感がつかめず、判断できない
- 社内でAI導入の稟議を通すための資料が必要
入力いただいたメールアドレスにPDFをお送りします。



