Llama 4 Scout 和 Maverick 應該選哪個？

大多數 indie maker 選 Scout。Scout 是 17B active / 109B total 的 MoE 模型，可以在單張 H100（INT4）或 RTX 4090（Q4）上跑，Groq API 只要 $0.11/$0.34 per 1M tokens。Maverick 是 128 experts 的更大模型，自建需要 4 張 H100，indie 規模基本上只會用 API（OpenRouter $0.15/$0.60，Groq 不提供 Maverick）。除非你需要更高品質的推理或視覺能力，否則 Scout 就夠了。

Llama 4 的 benchmark 爭議代表它不能用嗎？

不代表。Meta 提交給 LMArena 的是特調實驗版（非公開版），引發社群廣泛質疑。Meta VP Ahmad Al-Dahle 公開否認刻意灌水，但 LMArena 隨後修改政策禁止特調版提交。這讓 LMArena 排名失去參考價值，但不影響公開版的實際表現。獨立測試顯示 coding 任務確實落後（Rootly 測試 69.5% 準確率），但批次分類、摘要、retrieval 等任務的成本優勢仍然真實。結論：別用 Llama 4 當 coding copilot，但高吞吐量批次場景仍是省錢首選。

自建 Llama 4 需要多少 VRAM？

Llama 4 Scout 宣傳 '17B active parameters'，但 MoE 架構的所有 expert（109B total）都需要載入記憶體。BF16 需要 ~218GB VRAM（不可行），INT4 量化需要 ~55GB（一張 H100 80GB），Q4 量化需要 ~24GB（RTX 4090 或 Mac M4 Pro 48GB）。'17B 模型' 不等於 '17GB VRAM'。

什麼時候用 API 比自建划算？

對大多數 indie maker：一直都是。雲端租 H100 月費 $1,075-2,153，需要月 38 億 token 才能比 Groq API 便宜——幾乎不可能達到。唯一例外：已經擁有 RTX 4090 或 Mac Studio（只付電費 $20-30/月），月用量超過 50-100M tokens 時自建才有意義。

Llama 4 Indie Maker 完整指南：Scout vs Maverick 怎麼選、API vs 自建怎麼算

Meta 在 2025 年 4 月 5 日發布了 Llama 4，然後事情就變得混亂了。

一邊是「Maverick benchmark 超越 GPT-4o」的官方宣傳，另一邊是社群發現 Meta 提交了非公開特調版到 LMArena 的爭議。HN 上有人說它是廢物，也有人說它跑批次作業省了 90% 的 API 費用。

如果你是 indie maker，正在考慮「要不要把一些工作負載從 Claude / GPT-4o 切換到 Llama 4」，你需要的不是另一篇 benchmark 討論文，而是一套成本計算 + 場景選型的決策框架。這篇文章就是。

TL;DR

Scout 是 indie maker 的選擇（Groq API $0.11/$0.34），Maverick 用 API 就好（OpenRouter $0.15/$0.60，Groq 不提供 Maverick），不要自建
Benchmark 爭議是真的（Meta 提交特調版，Al-Dahle 否認灌水但 LMArena 已改規則），coding 任務確實落後，但批次/retrieval 任務的成本優勢不受影響
「17B active parameters」不等於 17GB VRAM——MoE 全部 109B params 都要載入，INT4 至少 55GB
雲端租 H100 自建幾乎永遠比 Groq API 貴；已有 RTX 4090/Mac Studio 才考慮自建
10M context 是 retrieval 神器（98% 準確率），不是 synthesis 神器（2M+ 品質下降）
Together.ai Scout 定價 $0.18/$0.59——比 OpenRouter $0.08/$0.30 貴 2 倍，合規需求才值得溢價

Llama 4 是什麼？Scout vs Maverick 30 秒讀懂

Llama 4 用的是 MoE（Mixture of Experts）架構——不是所有參數每次都啟動，而是每次推理只用一部分 expert。這讓模型「看起來很大，跑起來不算慢」。

	Scout	Maverick
Active params	17B	17B
Total params	109B（16 experts）	400B（128 experts）
Context	10M tokens	1M tokens
最低自建硬體	1x H100 (INT4) / RTX 4090 (Q4)	4x H100 (INT4)
Groq API 定價	$0.11/$0.34	— 不提供
定位	GPT-4o mini 等級 + 超長 context	GPT-4o 等級（有爭議）

大多數 indie maker 的答案是 Scout。 Maverick 自建需要 4 張 H100，indie 規模不會這樣做。Maverick 要用就走 API（OpenRouter $0.15/$0.60，Groq 目前不提供 Maverick）——它在推理品質上的提升，對批次作業和 retrieval 任務來說通常不值得 2 倍的溢價。

Benchmark 爭議真相：我應該信任 Llama 4 嗎？

先講結論：LMArena 排名無效，coding 場景真的落後，批次場景仍有成本優勢。

事件完整還原：

Meta 提交了一個名為「Llama-4-Maverick-03-26-Experimental」的 chat-tuned 實驗版（不是公開下載的版本）到 LMArena
研究員 Nathan Lambert 等人發現提交版本與公開版本不一致
Meta 生成式 AI 副總裁 Ahmad Al-Dahle 公開否認 Meta 刻意灌水分數，但 Meta 提交特調實驗版本一事為科技媒體報導，非 Al-Dahle 本人承認
LMArena 隨後修改政策，禁止特調版提交；社群對 Meta 的解釋普遍持懷疑態度
Rootly 的獨立 coding benchmark：Llama 4 最後一名，69.5% 準確率（落後領先者 18%）

HN 社群的共識是：「It feels like a flop because the expectations are real.」

你應該怎麼解讀？

LMArena 的排名不能當參考——Meta 提交的是未公開釋出的特調版，排名不代表公開版的真實水準
Coding 任務的落差是 MoE 架構的結構性弱點——stateful coding 需要跨步驟追蹤狀態，MoE 的 expert routing 在這方面天然不利
但批次分類、文件摘要、retrieval QA 等「每次呼叫相對獨立」的任務完全不受影響——這些任務看的是成本效率，不是排行榜

信心評級：benchmark 爭議的事實（HIGH confidence，多方交叉確認）。coding 落後的結論（MEDIUM confidence，Rootly 為單一獨立測試，但 MoE 結構性弱點有理論支撐）。

API 費用完整比較表

不是所有 Llama 4 API 供應商的定價都一樣——差距比你想的大。

本表數據截至 2026 年 4 月，以各供應商官方定價頁為準。

供應商	Scout 輸入 $/1M	Scout 輸出 $/1M	Maverick 輸入 $/1M	Maverick 輸出 $/1M	特色
OpenRouter	$0.08	$0.30	$0.15	$0.60	最便宜，自動路由
Groq	$0.11	$0.34	—	僅 Scout 可用	最快（LPU ~408 tok/s）
Together.ai	$0.18	$0.59	$0.55	$2.19	SOC 2 Type II + HIPAA

三個選擇邏輯：

成本優先 → OpenRouter（Scout 輸出 $0.30，最便宜）
速度優先 → Groq（LPU 架構，p50 latency < 500ms）
合規需求（HIPAA / SOC 2）→ Together.ai（溢價約 2 倍，但有明確合規認證）

Together.ai 是 Meta 官方合作夥伴，但「官方合作夥伴」不代表「最優性價比」。如果你沒有明確的合規需求，選 OpenRouter 或 Groq。

作為對比：Claude Sonnet 4.6 輸出定價 $15.00/1M tokens，Groq Scout 只要 $0.34——便宜 44 倍。但價格不是唯一的決策因素，後面會解釋。

Llama 4 vs Claude / GPT-4o 成本計算

用實際任務來算，不是抽象定價比較。

假設條件：1:3 input:output token 比例（200 input + 600 output tokens per call），月 30,000 次呼叫（每天約 1,000 次）。

方案	月費計算	月費
Groq Scout	(200×$0.11 + 600×$0.34) / 1M × 30,000	$6.78
OpenRouter Scout	(200×$0.08 + 600×$0.30) / 1M × 30,000	$5.88
Claude Haiku 4.5	(200×$1.00 + 600×$5.00) / 1M × 30,000	$96.00
Claude Sonnet 4.6	(200×$3.00 + 600×$15.00) / 1M × 30,000	$288.00
GPT-4o mini	(200×$0.15 + 600×$0.60) / 1M × 30,000	$11.70

Groq Scout 比 Haiku 4.5 便宜 93%，比 Sonnet 4.6 便宜 97%。

但省 90%+ 不代表應該全換。下面是場景分析：

適合切換到 Llama 4 的任務：

批次文件摘要（每篇獨立，不需要跨文件推理）
資料分類 / 標籤（keyword extraction、sentiment analysis）
Codebase navigation / retrieval（找特定函數、追蹤 call path）
圖文提取（Scout 原生 multimodal，非 EU 用戶可用）

不適合切換的任務：

Coding 任務（Rootly MCQ 形式測試落後 18%）
Multi-turn tool calling agent（Maverick 截至 2026-04 仍標註 "under development"）
即時聊天 with 超長 context（TTFT > 60 秒 at 10M tokens）
Safety-critical 輸出（長 context 幻覺率缺乏可靠數據）

如何估算你自己的 token 分佈？ 在你的 API 呼叫中開啟 usage logging，記錄一週的 prompt_tokens 和 completion_tokens，算出你的實際 input:output 比例。不同應用類型差異很大——chatbot 通常 1:3，摘要任務可能 10:1。用你的真實數字代入上面的公式，而不是我的假設。

10M Token Context 實際能做什麼

Scout 的 10M token context window 是真實功能，不是行銷噱頭——但你需要理解它能做什麼和不能做什麼。

Meta 官方 NIAH（Needle In A Haystack）benchmark 顯示：10M context 下 retrieval 任務準確率 98%。

但這裡有一個關鍵區分：context-as-database（retrieval） vs context-as-working-memory（synthesis）。

Retrieval（有效，10M 可用）

在超長 context 中找到特定資訊——像 Ctrl+F 但更聰明：

完整 codebase 分析（500K-2M tokens）：找特定 API 呼叫、追蹤 dependency chain、生成 onboarding 文件
法律/合約批次處理：50+ 合約同批比較條款矛盾（10M tokens ≈ 7,000 頁文件）
長期研究助手：6-12 個月的 notes + papers 常駐 context，隨時查詢

Synthesis（有限，2M+ 品質下降）

要求模型跨大量資料合成新觀點或重構——像讓它「讀完這 50 個檔案然後重寫架構」：

社群測試和分析指出，synthesis 任務在超過 2M tokens 後品質顯著下降。「把整個 codebase 丟進去請 Llama 4 重構」是不切實際的期待。

結論：10M context 是 context-as-database——用它來搜尋、定位、比對。不是 context-as-working-memory——別期待它在 10M tokens 上做深度合成。

自建 Llama 4 的硬體需求：別被「17B」騙了

這是最容易犯的技術誤解：「Scout 是 17B active parameters，所以 VRAM 需求跟 17B dense model 差不多。」

錯。 MoE（Mixture of Experts）的所有 expert 參數都需要載入記憶體，不只是每次 forward pass 啟動的那部分。

計算：

109B total params × 2 bytes (BF16) = ~218GB VRAM（不可行，消費級）
109B × 0.5 bytes (INT4) = ~55GB VRAM（1 張 H100 80GB）
對比：17B dense model 的 INT4 只需 ~9GB

模型	精度	VRAM 需求	推薦硬體	效能
Scout	BF16	~218GB	不可行（消費級）	—
Scout	INT4	~55GB	1x H100 80GB	標準 production
Scout	Q4 (Ollama)	~24GB	RTX 4090 / Mac M4 Pro 48GB	25-40 tok/s
Scout	1.78-bit (Unsloth)	~14GB	RTX 3080 16GB	~20 tok/s（品質損失大）
Maverick	INT4	~200GB	4x H100	非 indie 規模

Ollama 快速安裝

# 安裝 Ollama（macOS）
brew install ollama

# 下載 Llama 4 Scout（Q4，需 24GB+ VRAM）
ollama pull llama4

# 執行
ollama run llama4

效能預期（社群回報，MEDIUM confidence）：

M4 Pro Mac 48GB：~30-40 tok/s
RTX 4090 24GB：~25-35 tok/s
M3 Max 36GB：~20-28 tok/s

注意：Maverick 不支援 Ollama consumer 部署（需 200GB+ VRAM）。

API vs 自建成本試算：什麼時候自建才划算？

先看數字。

自建方案	月成本	vs Groq Scout	Break-even 月 token 量
租 H100 (Vast.ai)	~$1,075	Groq 幾乎永遠更便宜	~38 億 tokens（不實際）
租 H100 (Lambda Labs)	~$2,153	Groq 永遠更便宜	~61 億 tokens（不可能）
已有 RTX 4090（電費 only）	~$20-30	月 50-100M token 回本	50-100M tokens
已有 Mac Studio M4 Ultra（電費 only）	~$15-25	更快回本	40-80M tokens

以上 break-even 計算基於 Groq Scout 定價 $0.11/$0.34（2026-04-18 時點），假設 1:3 token ratio。

結論很清楚：除非你已經有硬體，否則雲端租用自建永遠比 Groq API 貴。

但有一個常被忽略的隱性成本：DevOps 維護時間。一個人的 side project 每週花 3-5 小時維護 Ollama/vLLM（模型更新、scaling、debug），按 $50/hr 算就是 $600-1,000/月。加上去之後，即使已有硬體，break-even 點也大幅上移。

老實說，大多數 indie maker 的月 API 費用在 $10-100 之間。到了需要認真考慮自建的那天，你的產品應該已經有足夠的營收來支撐基礎設施投資了。

Indie Maker 使用場景選型矩陣

任務類型	Llama 4 Scout	Claude Haiku 4.5	取決於規模
批次文件摘要	✅ 首選（省 90%+）	品質更高但貴 14x	—
資料分類 / 標籤	✅ 首選	—	—
Keyword extraction	✅ 首選	—	—
Codebase retrieval	✅ 10M context 優勢	—	—
圖文提取	✅（非 EU 用戶）	❌ 不支援	Claude vision 更穩定
複雜 coding copilot	❌ 落後 18%	—	✅ Claude Sonnet
Multi-turn agent	❌ tool calling 不穩定	✅	—
即時聊天 > 10 並發	⚠️ Groq rate limit	✅	—
文章寫作（繁中）	⚠️ 品質因任務而異	✅ 繁中品質更穩	—

混合架構是最務實的選擇：

批次/分類/retrieval 任務 → Groq Scout（省 90%+）
需要品質保證的用戶面任務 → Claude Haiku 4.5 fallback
假設 70% 走 Scout、30% 走 Haiku，混合成本比純 Haiku 便宜 ~60%

授權風險與長期戰略評估

Llama 4 Community License 不是一般理解的「開源」——它是 source-available，不符合 Open Source Definition（OSI 標準）。

三大授權限制

MAU 上限：月活躍用戶 > 7 億需額外申請 Meta 授權（indie maker 實際上不會觸碰）
EU 多模態限制：歐盟用戶不能使用 Llama 4 的視覺功能（Scout/Maverick 的 multimodal 能力）。文字功能在 EU 仍可用
非 OSI 開源：不是真正的開源，Meta 保留更多控制權

台灣 SaaS 開發者注意：如果你的產品有歐盟用戶，且用了 Llama 4 的 vision 功能（例如讓用戶上傳截圖分析），在技術上違反授權條款。文字功能不受影響。

Meta 的長期戰略風險

2025-2026 年出現了幾個令人擔憂的訊號：

VP Joelle Pineau 辭職——Meta AI 領導層變動
Digitimes 2025-12 報導 Meta 延後 Llama 接班人，內部轉向閉源
Zuckerberg 將 GenAI org 邊緣化

建議：不要假設 Llama 5 一定開源。在依賴 Llama 4 之前，設計 provider-agnostic 的 fallback 機制。最簡單的做法是用抽象層隔離 API 呼叫（Groq → Claude 的切換只需要改 endpoint + model name），保持 20 行程式碼以內的切換成本。

以上授權資訊以 2026-04-18 時點的 Llama 4 Community License 為準，Meta 可能隨時修改條款。

決策矩陣：3 分鐘判斷 Llama 4 是否適合你

資訊量很大。壓縮成三步：

Step 1：任務類型過濾

你的主要工作負載是 coding copilot 或 multi-turn agent？→ 不建議切換，Claude/GPT-4o 仍然更好
你的主要工作負載是批次處理、分類、retrieval？→ 繼續往下

Step 2：月 token 量估算 + API 選擇

月費 = (input_tokens × 輸入單價 + output_tokens × 輸出單價) / 1,000,000 × 月調用次數

月 token 量	建議
< 100M tokens	Groq 或 OpenRouter API（月費 < $50，不用想自建）
100M-1B tokens	Groq API + Haiku fallback 混合架構
> 1B tokens 且已有 GPU	評估自建（RTX 4090 / Mac Studio）
> 1B tokens 且無 GPU	仍用 API（雲端租 H100 不划算）

Step 3：合規與地區過濾

有 HIPAA / SOC 2 需求？→ Together.ai（溢價約 2x，有明確認證）
有歐盟用戶 + 用 vision 功能？→ 排除 Llama 4 multimodal，改用 Claude vision
以上都沒有？→ OpenRouter（最便宜）或 Groq（最快）

風險揭露

定價隨時變化：API 市場競爭激烈，本文引用的價格是 2026 年 4 月的快照。即時數據請查閱各供應商定價頁。

Benchmark 有限：本文引用的 Rootly coding benchmark 是單一獨立測試，樣本數有限。coding 任務落後的結論有 MoE 結構性弱點的理論支撐，但不代表在所有 coding 場景都一定落後。

試算基於假設：成本計算基於 1:3 input:output token 比例和月 30,000 次呼叫的假設。你的實際 token 分佈可能差異極大——上線後第一件事是測量真實數字。

授權風險：Llama 4 Community License 的條款可能隨時修改。本文的授權分析以 2026-04-18 時點為準。

結論

Llama 4 不是「便宜的 Claude 替代品」，也不是「因為 benchmark 爭議就該忽視的失敗作」。

它是一個有明確適用場景的工具：批次分類、文件摘要、codebase retrieval——在這些任務上，Groq Scout 比 Claude Haiku 便宜 93%，而且品質足以應付。但 coding copilot 和 multi-turn agent 不行——這是 MoE 架構的結構性限制，不是調一下 prompt 就能解決的。

最務實的做法：混合架構。批次任務走 Groq Scout（$0.11/$0.34），需要品質保證的用戶面功能走 Claude Haiku 4.5（$1/$5），20 行程式碼的 try/except 切換。這樣你既省了 60%+ 的 API 成本，又不會在關鍵任務上吃虧。

現在就開始：用上面的公式估算你的月費，對照決策矩陣，挑出第一個要測試的場景。記住——你不需要一次全換，先讓一個批次任務跑一週 Groq Scout，量化省下的費用，再決定要不要擴大。