2026 AI API 成本完整試算:Claude / GPT-4o / Gemini / Llama 4,Indie Maker 怎麼選最省?
你在建一個有 AI 功能的 Side Project,但還沒想清楚一件事:API 帳單到底會是多少?
如果你只是「用」AI——開 ChatGPT 或 Claude 問問題——月費頂多 $20-100。但你在建產品,讓你的使用者去呼叫 API,定價邏輯完全不同。
一個可能讓你意外的數字:Claude Pro 訂閱 $20/月,但同等用量的 API 費用大約是 $131-180。訂閱是 Anthropic 用補貼吸引用戶的策略;API 才是給建產品的人設計的定價結構。
這篇文章不是另一份「AI 模型比較表」。它是一套費用決策框架——幫你根據月用量、任務類型和預算,選出現在最適合你的 API 方案。而且會告訴你,帳單比你預期高 3-5 倍的原因到底是什麼。
TL;DR
- 輸出 token 是帳單的真正主角——佔總成本 70-80%,但多數人只看輸入定價(業界估算)
- 費用階段梯:< $50/月用 Groq 或 GPT-4o mini;$50-200 用 Claude Haiku 4.5;> $200 評估 Sonnet 4.6 + caching
- Groq 跑 Llama 4 Scout 比 Sonnet 4.6 便宜 ~90%,但 rate limit 在多用戶 SaaS 是硬傷
- Context 膨脹是隱形炸彈——10 輪對話後,單次 call 成本可能是第 1 輪的 3-6 倍
- Prompt caching 在低頻應用反而更貴——5 分鐘內少於 2-3 次命中就虧
2026 主流 AI API 定價全覽
所有主流 API 都採「按 token 計費,輸入/輸出分開定價」。關鍵在第三欄——輸出比輸入貴多少倍。
本表數據截至 2026 年 4 月,以各供應商官方定價頁為準。API 定價隨市場競爭持續調整,即時價格可參考 llmpricecheck.com。
| 供應商 | 模型 | 輸入 $/1M | 輸出 $/1M | 輸出/輸入比 | 特殊折扣 |
|---|---|---|---|---|---|
| Anthropic | Haiku 4.5 | $1.00 | $5.00 | 5x | Batch 50% off, Cache 90% off |
| Anthropic | Sonnet 4.6 | $3.00 | $15.00 | 5x | 同上 |
| Anthropic | Opus 4.6 | $5.00 | $25.00 | 5x | 同上 |
| OpenAI | GPT-4o mini | $0.15 | $0.60 | 4x | Batch 50% off |
| OpenAI | GPT-4o | $2.50 | $10.00 | 4x | Batch 50% off, Cache 50% off |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 4x | Batch 50% off | |
| Gemini 3 Flash | $0.50 | $3.00 | 6x | Batch 50% off | |
| Gemini 3.1 Pro | $2.00 | $12.00 | 6x | Batch 50% off, Cache 90% off | |
| Groq | Llama 4 Scout | $0.11 | $0.34 | 3.1x | — |
| Groq | Llama 4 Maverick | $0.20 | $0.60 | 3x | — |
| Together.ai | Llama 4 Maverick | $0.55 | $2.19 | 4x | 量大折扣 |
看到了嗎?Groq 跑 Llama 4 Scout 的輸出定價($0.34)比 Claude Sonnet 4.6($15.00)便宜了 44 倍。但先別急著全換——後面會解釋為什麼便宜的不一定能用。
為什麼你的帳單比你算的貴 3-5 倍?
大多數開發者估算 API 成本時,犯的是同一個錯:只看輸入定價。
陷阱 1:輸出 token 才是帳單主角
一個典型的 AI chatbot 回應大約 500 字 ≈ 600 tokens。而你送出的問題可能只有 50 字 ≈ 200 tokens。用 Claude Sonnet 4.6 算一次:
- 輸入:200 tokens × $3.00/1M = $0.0006
- 輸出:600 tokens × $15.00/1M = $0.009
- 輸出佔比:93.75%
這不是 Sonnet 才有的問題。所有供應商的輸出定價都比輸入高 3-10 倍。你在定價表上看到的「$3.00/1M tokens」只是輸入價——那個比較小的數字。
陷阱 2:Context 膨脹公式
多輪對話的每次 API call 都帶著全部歷史訊息。你的 chatbot 對話越長,每次 call 的 context 就越大,費用線性增長。
簡單公式:
第 N 輪成本 ≈ 基礎成本 × (1 + N × 每輪增量 / 初始 context)
實際算一下。假設 system prompt 1000 tokens,每輪新增 200 tokens(用戶)+ 600 tokens(AI 回應):
| 輪數 | Context 大小 | 輸入成本(Sonnet) | 累計成本 |
|---|---|---|---|
| 第 1 輪 | 1,200 tokens | $0.0036 | $0.013 |
| 第 5 輪 | 5,200 tokens | $0.0156 | $0.069 |
| 第 10 輪 | 9,200 tokens | $0.0276 | $0.148 |
第 10 輪的單次輸入成本已經是第 1 輪的 7.7 倍——還沒算輸出。加上每輪 600 tokens 的輸出,10 輪對話的總成本大約是只算第 1 輪成本 × 10 的 3-4 倍。
社群裡一個常見的抱怨是:「Context 一膨脹,每次 call 都在燒鈔票,初期不知道就虧爛。」
陷阱 3:System Prompt 稅
如果你沒開 prompt caching,每次 API call 都會重新傳送 system prompt。一個 1000 tokens 的 system prompt,每天 1000 次呼叫 = 每天 1M tokens 的「隱形輸入」。用 Sonnet 4.6 算,每天就是 $3,一個月 $90——光在重複傳送同一段文字。
費用階段梯:你現在在哪個階段?
與其問「哪個 API 最便宜」,不如先問「我的月用量在哪個區間」。不同規模適合不同 API,而且有明確的切換觸發點。
Stage 0:< $10/月(MVP / Prototype)
你只是在驗證 idea,用量極低。
| 推薦 | 理由 |
|---|---|
| GPT-4o mini ($0.15/$0.60) | 最便宜的商業品質 API,每天 1000 次簡單呼叫 ≈ $11.7/月 |
| Gemini 2.5 Flash-Lite ($0.10/$0.40) | Google 最便宜方案,適合極輕量原型 |
| Groq Llama 4 Scout ($0.11/$0.34) | 價格最低,但有 rate limit |
注意:Gemini 2.5 系列的免費 tier 已在 2026 年 4 月 1 日移除。新專案建議直接從付費方案開始規劃,避免免費 tier 突然取消導致服務中斷。
觸發切換事件:需要更高的回應品質(GPT-4o mini 在複雜推理上的表現有限),或需要穩定的 SLA。
Stage 1:$10-50/月(早期產品,< 500 DAU)
你的產品有了第一批用戶,但規模還小。
| 推薦 | 理由 |
|---|---|
| Groq Scout + GPT-4o mini 混合 | 非關鍵任務走 Groq,需要品質的走 GPT-4o mini |
| Gemini 3 Flash ($0.50/$3.00) | Google 品牌保證 + 較高品質 |
觸發切換事件:並發用戶 > 10(Groq rate limit 開始成為瓶頸),或品質需求提升。
Stage 2:$50-200/月(成長期,500-5000 DAU)
費用開始佔營運成本的可見比例。這是最關鍵的階段。
| 推薦 | 理由 |
|---|---|
| Claude Haiku 4.5 ($1.00/$5.00) | 最佳品質/成本平衡,1000 次/天 chatbot ≈ $96/月 |
根據官方定價計算,Haiku 4.5 在品質和成本之間取得了甜蜜點。它的回應品質明顯優於 GPT-4o mini,但價格只有 Sonnet 4.6 的 1/3。
觸發切換事件:品質需求升級到需要 Sonnet 等級,或月費超過 $200。
Stage 3:> $200/月(穩定產品)
你有穩定的用戶基礎和可預測的用量。
| 推薦 | 理由 |
|---|---|
| Claude Sonnet 4.6 + Prompt Caching | 高品質 + caching 最高節省 90% 輸入成本 |
| 多供應商路由(Groq + Haiku fallback) | 混合架構平均成本降低 50-70% |
觸發切換事件:月費 > $800 開始認真評估自架 Llama 的 TCO。
Groq + Llama 4:便宜 90% 的代價
Llama 4 Scout 跑在 Groq 上,每 1M 輸出 tokens 只要 $0.34——同品質範圍的任務比 Claude Sonnet 4.6 便宜約 90%。p50 latency 不到 500ms,體驗非常好。
但在你把整個 SaaS 搬上去之前,要知道三個硬限制。
限制 1:Rate Limit 是真正的牆
Groq 免費層:30 RPM(每分鐘 30 次請求)/ 14,400 TPM(每分鐘 14,400 tokens)。
換算成實際場景:30 RPM = 每 2 秒只能呼叫 1 次。如果你的產品同時有 10 個用戶在聊天,每人每分鐘 3-5 次互動,30 RPM 瞬間爆。付費層提升約 10 倍,但仍有硬上限——不像 Claude 或 GPT-4o 可以靠加錢解決。
HN 上一個常見的故事是:「Groq 測試很爽,production 就卡死了。」
限制 2:模型版本與功能
Groq 上的 Llama 4 版本不一定是最新的。而且部分功能(vision、複雜的 function calling)支援程度因版本而異。如果你的應用依賴這些功能,在 production 部署前要仔細測試。
限制 3:沒有 Caching 機制
Groq 目前不提供 prompt caching。如果你的應用有大量重複的 system prompt,無法像 Anthropic 那樣節省 90% 的輸入成本。
可以用 Groq 的場景:批量文章摘要、資料分類、關鍵字提取、單用戶工具、非即時任務。
不能用 Groq 的場景:即時聊天 > 10 並發用戶、需要 vision、複雜 tool use、需要穩定 SLA 的 B2B 產品。
Prompt Cache + Batch API:省錢神器還是假福利?
Prompt Caching(Anthropic)
Anthropic 的 prompt caching 機制:把固定的 system prompt 或長文 context 暫存起來,後續呼叫直接讀取,不用重新處理。
以 Sonnet 4.6 為例:
- 標準輸入:$3.00/1M tokens
- Cache write(首次寫入):$3.75/1M tokens(比標準貴 25%)
- Cache read(命中):$0.30/1M tokens(比標準便宜 90%)
- TTL:5 分鐘(超時需重新 write)
省錢的條件(全部滿足才有效):
- ✅ System prompt 超過 1024 tokens
- ✅ 5 分鐘內有 3 次以上呼叫(至少回本 cache write 費用)
- ✅ 多用戶共用同一份 system prompt
虧錢的條件(任一成立就別開):
- ❌ 個人工具 / 低 DAU 應用——呼叫頻率太低,cache 一直 miss
- ❌ System prompt < 1024 tokens——不符合啟動條件
- ❌ 5 分鐘內少於 2 次呼叫——cache write 費用無法回收
老實說,大多數 indie maker 的早期產品用量太低,開 cache 反而多花 25% 的 write 費用。等 DAU 穩定超過 50 再評估。
Batch API(Anthropic / OpenAI)
如果你的任務不需要即時回應——文章摘要、資料分類、報告生成——Batch API 直接半價。
實際計算:用 Haiku 4.5 批量處理 1000 篇文章摘要,即時 API 約 $96,Batch 模式只要 $48。如果你的工作流容許非同步處理,這是最簡單的省錢方法。
多供應商路由:2026 性價比最高的架構
把所有賭注壓在單一 API 供應商是有風險的:漲價無處跑、服務中斷無 fallback、rate limit 撞牆只能等。
HN 上被多位開發者確認有效的架構是 Groq primary + Haiku 4.5 fallback:
- 日常任務走 Groq Scout($0.11/$0.34)
- Rate limit 撞牆或服務異常時自動切 Haiku 4.5($1/$5)
- 假設 80% 請求走 Groq、20% 走 Haiku,平均成本比純 Haiku 便宜 50-70%
OpenRouter vs 自建路由
OpenRouter:零程式碼多供應商路由。一個 API key 切換多家,自動 fallback,即時比價。
- 適合:Prototype 階段、技術能力有限、想快速實驗
- 代價:5-10% 定價 markup、多一層 50-100ms latency、無法使用 Anthropic prompt caching
自建路由:月 API 費用超過 $200,確定主力供應商後值得投資。核心邏輯只需要 20-30 行程式碼——try/except 切換 + retry + 供應商健康檢查。
台灣開發者 API 支付指南
重要聲明:以下為社群回報資料,非官方資訊。各銀行和支付平台政策隨時變化,建議先用 $5-10 小額測試。
| 平台 | 台灣信用卡 | 備註 |
|---|---|---|
| Anthropic | ⚠️ 部分成功 | 國泰世華、玉山 Visa 成功率較高;部分發卡行有拒付 |
| OpenAI | ⚠️ 部分成功 | 同上,另支援 PayPal(台灣帳號可用) |
| Google AI | ✅ 較穩定 | 支援台灣 Google Pay,信用卡成功率最高 |
| Groq | ✅ 較穩定 | 台灣信用卡成功率良好 |
| Together.ai | ✅ 較穩定 | 台灣用戶反映較順暢 |
遇到拒付怎麼辦?
最穩的備案是 Wise 虛擬卡——申請需要身分驗證(大約 1-3 個工作天),但開通後刷海外平台幾乎 100% 成功。如果不想辦 Wise,OpenAI 的 PayPal 選項是另一個出路。
選型決策樹:3 步驟選出你的 API
看到這裡資訊量很大。壓縮成三步:
Step 1:算月費
月費 = (input_tokens × 輸入單價 + output_tokens × 輸出單價) / 1,000,000 × 月調用次數
不知道你的 token 分佈?先假設 1:3(input:output),用你預估的每日調用次數算一個月的大概數字。上線後用 API 的 usage dashboard 替換成真實數據。
Step 2:比對費用階段
| 月費 | 簡單任務 | 需要高品質推理 |
|---|---|---|
| < $10 | GPT-4o mini | Gemini 3 Flash |
| $10-50 | Groq Scout | Haiku 4.5 |
| $50-200 | Haiku 4.5 | Haiku 4.5 |
| > $200 | Groq + Haiku 路由 | Sonnet 4.6 + Cache |
Step 3:確認限制條件
- 需要 vision 或 function calling?→ 排除 Groq 某些模型
- 並發用戶 > 10?→ 排除 Groq 免費層
- 任務可批量?→ 用 Batch API 直接半價
- 有重複 system prompt?→ 評估 Anthropic caching
什麼時候應該考慮自架 Llama?
當 API 月費開始讓你考慮自架時,先做一道 TCO 計算。
自架成本(保守估算):
- GPU 伺服器租用(Lambda Labs A10G):$0.75/hr ≈ $540/月
- 可服務約 200-400 並發輕量請求
- DevOps 維護時間:保守估計每週 5 小時 × $50/hr = $1,000/月
- 總持有成本(TCO):約 $1,500/月
| API 月費 | 建議 |
|---|---|
| < $500 | 不用考慮自架,投資報酬率太低 |
| $500-1,500 | 灰色地帶——要看你有沒有 DevOps 資源和意願 |
| > $1,500 | 有明確的財務理由開始評估 |
但要誠實說:DevOps 時間的 $1,000/月 是很保守的估計。自架的維護責任(安全性更新、scaling、模型版本管理)往往被低估。如果你是一個人的團隊,這些時間應該拿來做產品,而不是維護基礎設施。
大多數 indie maker 的 API 月費在 $50-300 之間。到了需要考慮自架的那天,你的產品已經有足夠的營收來支撐這個決策了。
風險揭露
定價隨時變化:API 市場競爭激烈,2025 到 2026 主流 API 平均定價已下降 30-50%。本文引用的價格是 2026 年 4 月的快照。下決策前,務必確認各供應商定價頁的即時數據。
試算基於假設:本文的費用計算基於「input 200 tokens + output 600 tokens」的典型 chatbot 假設。你的實際 token 分佈可能差異極大——上線後的第一件事是從 API dashboard 測量真實數字,再調整估算。
供應商鎖定風險:把所有產品綁在單一供應商的專屬功能上(如 Anthropic caching、OpenAI function calling 語法),會增加未來切換的成本。建議用抽象層隔離 API 呼叫,保持供應商切換的彈性。
結論
AI API 定價的陷阱不在你看得見的數字,而在你沒算到的:輸出 token 佔 80% 成本、context 膨脹讓對話越聊越貴、system prompt 每次呼叫都重複計費。
但好消息是,做對選擇能省很多。用費用階段梯框架定位你現在的位置,搭配 Batch API 和多供應商路由,大多數 indie maker 可以把 API 成本控制在月費 $50-150 的範圍——足以支撐一個有幾百個每日活躍用戶的 AI 產品。
現在就開始:用上面的公式算一下你的預估月費,比對階段梯表,選出第一個 API。上線後測量實際 token 分佈,每月檢查一次是否該切換。定價戰還在加速,你今天的最優選擇,三個月後可能就不一樣了。
FAQ
Claude Pro $20/月 和 Claude API 哪個比較划算?
看你的用途。Claude Pro 是給「使用者」的訂閱方案,每月有對話額度限制但成本固定。API 是給「建產品」的人設計的——按 token 計費,沒有上限但費用不固定。以典型開發者每天用 Claude 30 分鐘估算,Pro 訂閱通常比等量 API 便宜 5-8 倍。但如果你在建產品讓其他人用,只能走 API。
Groq 跑 Llama 4 那麼便宜,為什麼不全用 Groq?
Groq 的免費層有嚴格的 rate limit(30 RPM / 14,400 TPM),10 個以上同時使用的用戶就會撞牆。而且 Groq 上的 Llama 4 可能不支援完整的 function calling 或 vision 功能。適合單人工具和批量離線任務,但不適合多用戶即時 SaaS。
台灣信用卡可以刷 Anthropic / OpenAI 嗎?
可以,但部分發卡行有拒付的情況。根據社群回報(非官方資訊,各銀行政策隨時變化),國泰世華和玉山的 Visa 成功率較高。Google AI 的信用卡成功率最高。如果遇到拒付,Wise 虛擬卡是最穩定的備案。建議先用小額($5-10)測試。
什麼時候應該考慮自己架 Llama 取代 API?
粗略算法:GPU 伺服器月租 $540 + DevOps 維護時間成本(保守 $1,000/月),加起來約 $1,500/月。API 月費低於 $500 不用考慮;$500-1,500 看你有沒有 DevOps 資源;超過 $1,500 才有明確的財務理由。大多數 indie maker 不會到這個規模。


