Claude Pro $20/月和 Claude API 哪個比較划算？

看你的用途。Claude Pro 是給「使用者」的訂閱方案，每月有對話額度限制但成本固定。API 是給「建產品」的人設計的——按 token 計費，沒有上限但費用不固定。以典型開發者每天用 Claude 30 分鐘估算，Pro 訂閱通常比等量 API 便宜 5-8 倍。但如果你在建產品讓其他人用，只能走 API。

Groq 跑 Llama 4 那麼便宜，為什麼不全用 Groq？

Groq 的免費層有嚴格的 rate limit（30 RPM / 14,400 TPM），10 個以上同時使用的用戶就會撞牆。而且 Groq 上的 Llama 4 可能不支援完整的 function calling 或 vision 功能。適合單人工具和批量離線任務，但不適合多用戶即時 SaaS。

台灣信用卡可以刷 Anthropic / OpenAI 嗎？

可以，但部分發卡行有拒付的情況。根據社群回報（非官方資訊，各銀行政策隨時變化），國泰世華和玉山的 Visa 成功率較高。Google AI 的信用卡成功率最高。如果遇到拒付，Wise 虛擬卡是最穩定的備案。建議先用小額（$5-10）測試。

什麼時候應該考慮自己架 Llama 取代 API？

粗略算法：GPU 伺服器月租（Lambda Labs A10G 按需）約 $432 + DevOps 維護時間成本（保守 $1,000/月），加起來約 $1,430/月。API 月費低於 $500 不用考慮；$500-1,430 看你有沒有 DevOps 資源；超過 $1,430 才有明確的財務理由。大多數 indie maker 不會到這個規模。

2026 AI API 成本完整試算：Claude / GPT-4o / Gemini / Llama 4，Indie Maker 怎麼選最省？

你在建一個有 AI 功能的 Side Project，但還沒想清楚一件事：API 帳單到底會是多少？

如果你只是「用」AI——開 ChatGPT 或 Claude 問問題——月費頂多 $20-100。但你在建產品，讓你的使用者去呼叫 API，定價邏輯完全不同。

一個可能讓你意外的數字：Claude Pro 訂閱 $20/月，但同等用量的 API 費用大約是 $131-180。訂閱是 Anthropic 用補貼吸引用戶的策略；API 才是給建產品的人設計的定價結構。

這篇文章不是另一份「AI 模型比較表」。它是一套費用決策框架——幫你根據月用量、任務類型和預算，選出現在最適合你的 API 方案。而且會告訴你，帳單比你預期高 3-5 倍的原因到底是什麼。

TL;DR

輸出 token 是帳單的真正主角——佔總成本 70-80%，但多數人只看輸入定價（業界估算）
費用階段梯：< $50/月用 Groq 或 GPT-4o mini；$50-200 用 Claude Haiku 4.5；> $200 評估 Sonnet 4.6 + caching
Groq 跑 Llama 4 Scout 比 Sonnet 4.6 便宜 ~90%，但 rate limit 在多用戶 SaaS 是硬傷
Context 膨脹是隱形炸彈——10 輪對話後，單次 call 成本可能是第 1 輪的 3-6 倍
Prompt caching 在低頻應用反而更貴——5 分鐘內少於 2-3 次命中就虧

2026 主流 AI API 定價全覽

所有主流 API 都採「按 token 計費，輸入/輸出分開定價」。關鍵在第三欄——輸出比輸入貴多少倍。

本表數據截至 2026 年 5 月初，以各供應商官方定價頁為準。API 定價隨市場競爭持續調整，即時價格可參考 llmpricecheck.com。

供應商	模型	輸入 $/1M	輸出 $/1M	輸出/輸入比	特殊折扣
Anthropic	Haiku 4.5	$1.00	$5.00	5x	Batch 50% off, Cache 90% off
Anthropic	Sonnet 4.6	$3.00	$15.00	5x	同上
Anthropic	Opus 4.6	$5.00	$25.00	5x	同上
OpenAI	GPT-4o mini	$0.15	$0.60	4x	Batch 50% off
OpenAI	GPT-4o	$2.50	$10.00	4x	Batch 50% off, Cache 50% off
OpenAI	GPT-5.5（以發布後定價為準，4/24 上線）	$5.00	$30.00	6x	Cache 90% off，超過 272K tokens 雙倍計費
Google	Gemini 2.5 Flash-Lite	$0.10	$0.40	4x	Batch 50% off
Google	Gemini 3 Flash	$0.50	$3.00	6x	Batch 50% off
Google	Gemini 3.1 Pro	$2.00	$12.00	6x	Batch 50% off, Cache 90% off
xAI	Grok 4.3	$1.25	$2.50	2x	1M token context，超過 200K tokens 雙倍計費
Groq	Llama 4 Scout	$0.11	$0.34	3.1x	Cache 免費（命中享折扣）
Groq	Llama 4 Maverick	$0.20	$0.60	3x	Cache 免費（命中享折扣）
Together.ai	Llama 4 Maverick	$0.27	$0.85	3.1x	量大折扣

看到了嗎？Groq 跑 Llama 4 Scout 的輸出定價（$0.34）比 Claude Sonnet 4.6（$15.00）便宜了 44 倍。但先別急著全換——後面會解釋為什麼便宜的不一定能用。

2026 年 4 月底的競爭格局變化

4 月下旬出現了兩個值得注意的新玩家：

xAI Grok 4.3（4/30 上線）：輸入 $1.25 / 輸出 $2.50 per 1M。輸出成本只有 Haiku 4.5 的一半，填補了「比 Groq 品質更穩定、比 Haiku 更便宜」的空缺。適合 Stage 1-2 的 Indie Maker 測試。注意：超過 200K input tokens 的請求費用倍增。

GPT-5.5（4/24 上線）：輸入 $5.00 / 輸出 $30.00 per 1M。定價比 Claude Opus 4.6 貴 20%，比 Sonnet 4.6 貴 1.7x 輸出。主打頂級推理，適合需要高複雜度任務的場景，但對多數 Indie Maker 來說成本太高——除非你的任務利潤率足以負擔。

為什麼你的帳單比你算的貴 3-5 倍？

大多數開發者估算 API 成本時，犯的是同一個錯：只看輸入定價。

陷阱 1：輸出 token 才是帳單主角

一個典型的 AI chatbot 回應大約 500 字 ≈ 600 tokens。而你送出的問題可能只有 50 字 ≈ 200 tokens。用 Claude Sonnet 4.6 算一次：

輸入：200 tokens × $3.00/1M = $0.0006
輸出：600 tokens × $15.00/1M = $0.009
輸出佔比：93.75%

這不是 Sonnet 才有的問題。所有供應商的輸出定價都比輸入高 3-10 倍。你在定價表上看到的「$3.00/1M tokens」只是輸入價——那個比較小的數字。

陷阱 2：Context 膨脹公式

多輪對話的每次 API call 都帶著全部歷史訊息。你的 chatbot 對話越長，每次 call 的 context 就越大，費用線性增長。

簡單公式：

第 N 輪成本 ≈ 基礎成本 × (1 + N × 每輪增量 / 初始 context)

實際算一下。假設 system prompt 1000 tokens，每輪新增 200 tokens（用戶）+ 600 tokens（AI 回應）：

輪數	Context 大小	輸入成本（Sonnet）	累計成本
第 1 輪	1,200 tokens	$0.0036	$0.013
第 5 輪	5,200 tokens	$0.0156	$0.069
第 10 輪	9,200 tokens	$0.0276	$0.148

第 10 輪的單次輸入成本已經是第 1 輪的 7.7 倍——還沒算輸出。加上每輪 600 tokens 的輸出，10 輪對話的總成本大約是只算第 1 輪成本 × 10 的 3-4 倍。

社群裡一個常見的抱怨是：「Context 一膨脹，每次 call 都在燒鈔票，初期不知道就虧爛。」

陷阱 3：System Prompt 稅

如果你沒開 prompt caching，每次 API call 都會重新傳送 system prompt。一個 1000 tokens 的 system prompt，每天 1000 次呼叫 = 每天 1M tokens 的「隱形輸入」。用 Sonnet 4.6 算，每天就是 $3，一個月 $90——光在重複傳送同一段文字。

費用階段梯：你現在在哪個階段？

與其問「哪個 API 最便宜」，不如先問「我的月用量在哪個區間」。不同規模適合不同 API，而且有明確的切換觸發點。

Stage 0：< $10/月（MVP / Prototype）

你只是在驗證 idea，用量極低。

推薦	理由
GPT-4o mini ($0.15/$0.60)	最便宜的商業品質 API，每天 1000 次簡單呼叫 ≈ $11.7/月
Gemini 2.5 Flash-Lite ($0.10/$0.40)	Google 最便宜方案，適合極輕量原型
Groq Llama 4 Scout ($0.11/$0.34)	價格最低，但有 rate limit

注意：Google Gemini API 的免費 tier 有嚴格的 rate limit（RPM / TPM 上限較低），適合原型測試但不適合 production。Gemini 2.5 Pro 和 Flash 系列目前仍提供免費 tier，但配額有限。如果你的產品有穩定用量，建議直接規劃付費方案，避免配額不足導致服務中斷。

觸發切換事件：需要更高的回應品質（GPT-4o mini 在複雜推理上的表現有限），或需要穩定的 SLA。

Stage 1：$10-50/月（早期產品，< 500 DAU）

你的產品有了第一批用戶，但規模還小。

推薦	理由
Groq Scout + GPT-4o mini 混合	非關鍵任務走 Groq，需要品質的走 GPT-4o mini
Gemini 3 Flash ($0.50/$3.00)	Google 品牌保證 + 較高品質
xAI Grok 4.3 ($1.25/$2.50)	輸出成本只有 Haiku 4.5 的一半，適合比 Groq 需要更穩定品質但不想付 Haiku 全價的場景

觸發切換事件：並發用戶 > 10（Groq rate limit 開始成為瓶頸），或品質需求提升。

Stage 2：$50-200/月（成長期，500-5000 DAU）

費用開始佔營運成本的可見比例。這是最關鍵的階段。

推薦	理由
Claude Haiku 4.5 ($1.00/$5.00)	最佳品質/成本平衡，1000 次/天 chatbot ≈ $96/月

根據官方定價計算，Haiku 4.5 在品質和成本之間取得了甜蜜點。它的回應品質明顯優於 GPT-4o mini，但價格只有 Sonnet 4.6 的 1/3。

觸發切換事件：品質需求升級到需要 Sonnet 等級，或月費超過 $200。

Stage 3：> $200/月（穩定產品）

你有穩定的用戶基礎和可預測的用量。

推薦	理由
Claude Sonnet 4.6 + Prompt Caching	高品質 + caching 最高節省 90% 輸入成本
多供應商路由（Groq + Haiku fallback）	混合架構平均成本降低 50-70%

觸發切換事件：月費 > $800 開始認真評估自架 Llama 的 TCO。

Groq + Llama 4：便宜 90% 的代價

Llama 4 Scout 跑在 Groq 上，每 1M 輸出 tokens 只要 $0.34——同品質範圍的任務比 Claude Sonnet 4.6 便宜約 90%。p50 latency 不到 500ms，體驗非常好。

但在你把整個 SaaS 搬上去之前，要知道三個硬限制。

限制 1：Rate Limit 是真正的牆

Groq 免費層：30 RPM（每分鐘 30 次請求）/ 6,000 TPM（每分鐘 6,000 tokens）/ 14,400 RPD（每日請求上限）。

換算成實際場景：30 RPM = 每 2 秒只能呼叫 1 次。如果你的產品同時有 10 個用戶在聊天，每人每分鐘 3-5 次互動，30 RPM 瞬間爆。付費層提升約 10 倍，但仍有硬上限——不像 Claude 或 GPT-4o 可以靠加錢解決。

HN 上一個常見的故事是：「Groq 測試很爽，production 就卡死了。」

限制 2：模型版本與功能

Groq 上的 Llama 4 版本不一定是最新的。而且部分功能（vision、複雜的 function calling）支援程度因版本而異。如果你的應用依賴這些功能，在 production 部署前要仔細測試。

限制 3：Caching 折扣有限

Groq 有提供 prompt caching，而且不額外收費——cache 命中時會給予折扣價（例如 GPT OSS 20B：標準 $0.075/1M，cache hit 更低）。但跟 Anthropic 的 90% off 相比，省幅較小，而且並非所有模型都支援。如果你的應用高度依賴大量重複 system prompt 來壓低成本，Anthropic 的 caching 機制仍然更有優勢。

可以用 Groq 的場景：批量文章摘要、資料分類、關鍵字提取、單用戶工具、非即時任務。

不能用 Groq 的場景：即時聊天 > 10 並發用戶、需要 vision、複雜 tool use、需要穩定 SLA 的 B2B 產品。

Prompt Cache + Batch API：省錢神器還是假福利？

Prompt Caching（Anthropic）

Anthropic 的 prompt caching 機制：把固定的 system prompt 或長文 context 暫存起來，後續呼叫直接讀取，不用重新處理。

以 Sonnet 4.6 為例：

標準輸入：$3.00/1M tokens
Cache write（首次寫入）：$3.75/1M tokens（比標準貴 25%）
Cache read（命中）：$0.30/1M tokens（比標準便宜 90%）
TTL：5 分鐘（超時需重新 write）

省錢的條件（全部滿足才有效）：

✅ System prompt 超過 1024 tokens
✅ 5 分鐘內有 3 次以上呼叫（至少回本 cache write 費用）
✅ 多用戶共用同一份 system prompt

虧錢的條件（任一成立就別開）：

❌ 個人工具 / 低 DAU 應用——呼叫頻率太低，cache 一直 miss
❌ System prompt < 1024 tokens——不符合啟動條件
❌ 5 分鐘內少於 2 次呼叫——cache write 費用無法回收

老實說，大多數 indie maker 的早期產品用量太低，開 cache 反而多花 25% 的 write 費用。等 DAU 穩定超過 50 再評估。

Batch API（Anthropic / OpenAI）

如果你的任務不需要即時回應——文章摘要、資料分類、報告生成——Batch API 直接半價。

Anthropic 和 OpenAI 都提供 Batch 模式
費用：標準 API 的 50%
代價：非即時，通常在 24 小時內完成

實際計算：用 Haiku 4.5 批量處理 1000 篇文章摘要，即時 API 約 $96，Batch 模式只要 $48。如果你的工作流容許非同步處理，這是最簡單的省錢方法。

多供應商路由：2026 性價比最高的架構

把所有賭注壓在單一 API 供應商是有風險的：漲價無處跑、服務中斷無 fallback、rate limit 撞牆只能等。

HN 上被多位開發者確認有效的架構是 Groq primary + Haiku 4.5 fallback：

日常任務走 Groq Scout（$0.11/$0.34）
Rate limit 撞牆或服務異常時自動切 Haiku 4.5（$1/$5）
假設 80% 請求走 Groq、20% 走 Haiku，平均成本比純 Haiku 便宜 50-70%

OpenRouter vs 自建路由

OpenRouter：零程式碼多供應商路由。一個 API key 切換多家，自動 fallback，即時比價。

適合：Prototype 階段、技術能力有限、想快速實驗
代價：5-10% 定價 markup、多一層 50-100ms latency、無法使用 Anthropic prompt caching

自建路由：月 API 費用超過 $200，確定主力供應商後值得投資。核心邏輯只需要 20-30 行程式碼——try/except 切換 + retry + 供應商健康檢查。

台灣開發者 API 支付指南

重要聲明：以下為社群回報資料，非官方資訊。各銀行和支付平台政策隨時變化，建議先用 $5-10 小額測試。

平台	台灣信用卡	備註
Anthropic	⚠️ 部分成功	國泰世華、玉山 Visa 成功率較高；部分發卡行有拒付
OpenAI	⚠️ 部分成功	同上，另支援 PayPal（台灣帳號可用）
Google AI	✅ 較穩定	支援台灣 Google Pay，信用卡成功率最高
Groq	✅ 較穩定	台灣信用卡成功率良好
Together.ai	✅ 較穩定	台灣用戶反映較順暢

遇到拒付怎麼辦？

最穩的備案是 Wise 虛擬卡——申請需要身分驗證（大約 1-3 個工作天），但開通後刷海外平台幾乎 100% 成功。如果不想辦 Wise，OpenAI 的 PayPal 選項是另一個出路。

選型決策樹：3 步驟選出你的 API

看到這裡資訊量很大。壓縮成三步：

Step 1：算月費

月費 = (input_tokens × 輸入單價 + output_tokens × 輸出單價) / 1,000,000 × 月調用次數

不知道你的 token 分佈？先假設 1:3（input:output），用你預估的每日調用次數算一個月的大概數字。上線後用 API 的 usage dashboard 替換成真實數據。

Step 2：比對費用階段

月費	簡單任務	需要高品質推理
< $10	GPT-4o mini	Gemini 3 Flash
$10-50	Groq Scout	Haiku 4.5
$50-200	Haiku 4.5	Haiku 4.5
> $200	Groq + Haiku 路由	Sonnet 4.6 + Cache

Step 3：確認限制條件

需要 vision 或 function calling？→ 排除 Groq 某些模型
並發用戶 > 10？→ 排除 Groq 免費層
任務可批量？→ 用 Batch API 直接半價
有重複 system prompt？→ 評估 Anthropic caching

什麼時候應該考慮自架 Llama？

當 API 月費開始讓你考慮自架時，先做一道 TCO 計算。

自架成本（保守估算）：

GPU 伺服器租用（Lambda Labs A10G）：$0.60/hr ≈ $432/月（截至 2026-04，按需計價）
可服務約 200-400 並發輕量請求
DevOps 維護時間：保守估計每週 5 小時 × $50/hr = $1,000/月
總持有成本（TCO）：約 $1,430/月

API 月費	建議
< $500	不用考慮自架，投資報酬率太低
$500-1,500	灰色地帶——要看你有沒有 DevOps 資源和意願
> $1,500	有明確的財務理由開始評估

但要誠實說：DevOps 時間的 $1,000/月是很保守的估計。自架的維護責任（安全性更新、scaling、模型版本管理）往往被低估。如果你是一個人的團隊，這些時間應該拿來做產品，而不是維護基礎設施。

大多數 indie maker 的 API 月費在 $50-300 之間。到了需要考慮自架的那天，你的產品已經有足夠的營收來支撐這個決策了。

風險揭露

定價隨時變化：API 市場競爭激烈，2025 到 2026 主流 API 平均定價已下降 30-50%。本文引用的價格是 2026 年 4 月的快照。下決策前，務必確認各供應商定價頁的即時數據。

試算基於假設：本文的費用計算基於「input 200 tokens + output 600 tokens」的典型 chatbot 假設。你的實際 token 分佈可能差異極大——上線後的第一件事是從 API dashboard 測量真實數字，再調整估算。

供應商鎖定風險：把所有產品綁在單一供應商的專屬功能上（如 Anthropic caching、OpenAI function calling 語法），會增加未來切換的成本。建議用抽象層隔離 API 呼叫，保持供應商切換的彈性。

結論

AI API 定價的陷阱不在你看得見的數字，而在你沒算到的：輸出 token 佔 80% 成本、context 膨脹讓對話越聊越貴、system prompt 每次呼叫都重複計費。

但好消息是，做對選擇能省很多。用費用階段梯框架定位你現在的位置，搭配 Batch API 和多供應商路由，大多數 indie maker 可以把 API 成本控制在月費 $50-150 的範圍——足以支撐一個有幾百個每日活躍用戶的 AI 產品。

現在就開始：用上面的公式算一下你的預估月費，比對階段梯表，選出第一個 API。上線後測量實際 token 分佈，每月檢查一次是否該切換。定價戰還在加速，你今天的最優選擇，三個月後可能就不一樣了。