Llama 4 Indie Maker 完整指南:Scout vs Maverick 怎麼選、API vs 自建怎麼算
Meta 在 2026 年 4 月 5 日發布了 Llama 4,然後事情就變得混亂了。
一邊是「Maverick benchmark 超越 GPT-4o」的官方宣傳,另一邊是 LeCun 本人確認「results were fudged a little bit」的爭議。HN 上有人說它是廢物,也有人說它跑批次作業省了 90% 的 API 費用。
如果你是 indie maker,正在考慮「要不要把一些工作負載從 Claude / GPT-4o 切換到 Llama 4」,你需要的不是另一篇 benchmark 討論文,而是一套成本計算 + 場景選型的決策框架。這篇文章就是。
TL;DR
- Scout 是 indie maker 的選擇(Groq API $0.11/$0.34),Maverick 用 API 就好($0.20/$0.60),不要自建
- Benchmark 爭議是真的(LeCun 確認),coding 任務確實落後,但批次/retrieval 任務的成本優勢不受影響
- 「17B active parameters」不等於 17GB VRAM——MoE 全部 109B params 都要載入,INT4 至少 55GB
- 雲端租 H100 自建幾乎永遠比 Groq API 貴;已有 RTX 4090/Mac Studio 才考慮自建
- 10M context 是 retrieval 神器(98% 準確率),不是 synthesis 神器(2M+ 品質下降)
- Together.ai Scout 定價 $0.18/$0.59——比 OpenRouter $0.08/$0.30 貴 2 倍,合規需求才值得溢價
Llama 4 是什麼?Scout vs Maverick 30 秒讀懂
Llama 4 用的是 MoE(Mixture of Experts)架構——不是所有參數每次都啟動,而是每次推理只用一部分 expert。這讓模型「看起來很大,跑起來不算慢」。
| Scout | Maverick | |
|---|---|---|
| Active params | 17B | 17B |
| Total params | 109B(16 experts) | 400B(128 experts) |
| Context | 10M tokens | 1M tokens |
| 最低自建硬體 | 1x H100 (INT4) / RTX 4090 (Q4) | 4x H100 (INT4) |
| Groq API 定價 | $0.11/$0.34 | $0.20/$0.60 |
| 定位 | GPT-4o mini 等級 + 超長 context | GPT-4o 等級(有爭議) |
大多數 indie maker 的答案是 Scout。 Maverick 自建需要 4 張 H100,indie 規模不會這樣做。Maverick 要用就走 API——它在推理品質上的提升,對批次作業和 retrieval 任務來說通常不值得 2 倍的溢價。
Benchmark 爭議真相:我應該信任 Llama 4 嗎?
先講結論:LMArena 排名無效,coding 場景真的落後,批次場景仍有成本優勢。
事件完整還原:
- Meta 提交了一個名為「Llama-4-Maverick-03-26-Experimental」的 chat-tuned 實驗版(不是公開下載的版本)到 LMArena
- 研究員 Nathan Lambert 等人發現提交版本與公開版本不一致
- Meta VP Ahmad Al-Dahle 最初否認,LMArena 隨後修改政策禁止特調版提交
- 2026 年 1 月,剛離職的 Meta AI 首席 Yann LeCun 確認:「results were fudged a little bit」
- Rootly 的獨立 coding benchmark:Llama 4 最後一名,69.5% 準確率(落後領先者 18%)
HN 社群的共識是:「It feels like a flop because the expectations are real.」
你應該怎麼解讀?
- LMArena 的排名不能當參考——那是用特調版刷出來的
- Coding 任務的落差是 MoE 架構的結構性弱點——stateful coding 需要跨步驟追蹤狀態,MoE 的 expert routing 在這方面天然不利
- 但批次分類、文件摘要、retrieval QA 等「每次呼叫相對獨立」的任務完全不受影響——這些任務看的是成本效率,不是排行榜
信心評級:benchmark 爭議的事實(HIGH confidence,多方交叉確認)。coding 落後的結論(MEDIUM confidence,Rootly 為單一獨立測試,但 MoE 結構性弱點有理論支撐)。
API 費用完整比較表
不是所有 Llama 4 API 供應商的定價都一樣——差距比你想的大。
本表數據截至 2026 年 4 月,以各供應商官方定價頁為準。
| 供應商 | Scout 輸入 $/1M | Scout 輸出 $/1M | Maverick 輸入 $/1M | Maverick 輸出 $/1M | 特色 |
|---|---|---|---|---|---|
| OpenRouter | $0.08 | $0.30 | $0.15 | $0.60 | 最便宜,自動路由 |
| Groq | $0.11 | $0.34 | $0.20 | $0.60 | 最快(LPU ~408 tok/s) |
| Together.ai | $0.18 | $0.59 | $0.55 | $2.19 | SOC 2 Type II + HIPAA |
三個選擇邏輯:
- 成本優先 → OpenRouter(Scout 輸出 $0.30,最便宜)
- 速度優先 → Groq(LPU 架構,p50 latency < 500ms)
- 合規需求(HIPAA / SOC 2)→ Together.ai(溢價約 2 倍,但有明確合規認證)
Together.ai 是 Meta 官方合作夥伴,但「官方合作夥伴」不代表「最優性價比」。如果你沒有明確的合規需求,選 OpenRouter 或 Groq。
作為對比:Claude Sonnet 4.6 輸出定價 $15.00/1M tokens,Groq Scout 只要 $0.34——便宜 44 倍。但價格不是唯一的決策因素,後面會解釋。
Llama 4 vs Claude / GPT-4o 成本計算
用實際任務來算,不是抽象定價比較。
假設條件:1:3 input:output token 比例(200 input + 600 output tokens per call),月 30,000 次呼叫(每天約 1,000 次)。
| 方案 | 月費計算 | 月費 |
|---|---|---|
| Groq Scout | (200×$0.11 + 600×$0.34) / 1M × 30,000 | $6.78 |
| OpenRouter Scout | (200×$0.08 + 600×$0.30) / 1M × 30,000 | $5.88 |
| Claude Haiku 4.5 | (200×$1.00 + 600×$5.00) / 1M × 30,000 | $96.00 |
| Claude Sonnet 4.6 | (200×$3.00 + 600×$15.00) / 1M × 30,000 | $288.00 |
| GPT-4o mini | (200×$0.15 + 600×$0.60) / 1M × 30,000 | $11.70 |
Groq Scout 比 Haiku 4.5 便宜 93%,比 Sonnet 4.6 便宜 97%。
但省 90%+ 不代表應該全換。下面是場景分析:
適合切換到 Llama 4 的任務:
- 批次文件摘要(每篇獨立,不需要跨文件推理)
- 資料分類 / 標籤(keyword extraction、sentiment analysis)
- Codebase navigation / retrieval(找特定函數、追蹤 call path)
- 圖文提取(Scout 原生 multimodal,非 EU 用戶可用)
不適合切換的任務:
- 複雜多步驟 coding(Rootly 測試落後 18%)
- Multi-turn tool calling agent(Maverick 截至 2026-04 仍標註 "under development")
- 即時聊天 with 超長 context(TTFT > 60 秒 at 10M tokens)
- Safety-critical 輸出(長 context 幻覺率缺乏可靠數據)
如何估算你自己的 token 分佈? 在你的 API 呼叫中開啟 usage logging,記錄一週的 prompt_tokens 和 completion_tokens,算出你的實際 input:output 比例。不同應用類型差異很大——chatbot 通常 1:3,摘要任務可能 10:1。用你的真實數字代入上面的公式,而不是我的假設。
10M Token Context 實際能做什麼
Scout 的 10M token context window 是真實功能,不是行銷噱頭——但你需要理解它能做什麼和不能做什麼。
Meta 官方 NIAH(Needle In A Haystack)benchmark 顯示:10M context 下 retrieval 任務準確率 98%。
但這裡有一個關鍵區分:context-as-database(retrieval) vs context-as-working-memory(synthesis)。
Retrieval(有效,10M 可用)
在超長 context 中找到特定資訊——像 Ctrl+F 但更聰明:
- 完整 codebase 分析(500K-2M tokens):找特定 API 呼叫、追蹤 dependency chain、生成 onboarding 文件
- 法律/合約批次處理:50+ 合約同批比較條款矛盾(10M tokens ≈ 7,000 頁文件)
- 長期研究助手:6-12 個月的 notes + papers 常駐 context,隨時查詢
Synthesis(有限,2M+ 品質下降)
要求模型跨大量資料合成新觀點或重構——像讓它「讀完這 50 個檔案然後重寫架構」:
社群測試和分析指出,synthesis 任務在超過 2M tokens 後品質顯著下降。「把整個 codebase 丟進去請 Llama 4 重構」是不切實際的期待。
結論:10M context 是 context-as-database——用它來搜尋、定位、比對。不是 context-as-working-memory——別期待它在 10M tokens 上做深度合成。
自建 Llama 4 的硬體需求:別被「17B」騙了
這是最容易犯的技術誤解:「Scout 是 17B active parameters,所以 VRAM 需求跟 17B dense model 差不多。」
錯。 MoE(Mixture of Experts)的所有 expert 參數都需要載入記憶體,不只是每次 forward pass 啟動的那部分。
計算:
- 109B total params × 2 bytes (BF16) = ~218GB VRAM(不可行,消費級)
- 109B × 0.5 bytes (INT4) = ~55GB VRAM(1 張 H100 80GB)
- 對比:17B dense model 的 INT4 只需 ~9GB
| 模型 | 精度 | VRAM 需求 | 推薦硬體 | 效能 |
|---|---|---|---|---|
| Scout | BF16 | ~218GB | 不可行(消費級) | — |
| Scout | INT4 | ~55GB | 1x H100 80GB | 標準 production |
| Scout | Q4 (Ollama) | ~24GB | RTX 4090 / Mac M4 Pro 48GB | 25-40 tok/s |
| Scout | 1.78-bit (Unsloth) | ~14GB | RTX 3080 16GB | ~20 tok/s(品質損失大) |
| Maverick | INT4 | ~200GB | 4x H100 | 非 indie 規模 |
Ollama 快速安裝
# 安裝 Ollama(macOS)
brew install ollama
# 下載 Llama 4 Scout(Q4,需 24GB+ VRAM)
ollama pull llama4
# 執行
ollama run llama4
效能預期(社群回報,MEDIUM confidence):
- M4 Pro Mac 48GB:~30-40 tok/s
- RTX 4090 24GB:~25-35 tok/s
- M3 Max 36GB:~20-28 tok/s
注意:Maverick 不支援 Ollama consumer 部署(需 200GB+ VRAM)。
API vs 自建成本試算:什麼時候自建才划算?
先看數字。
| 自建方案 | 月成本 | vs Groq Scout | Break-even 月 token 量 |
|---|---|---|---|
| 租 H100 (Vast.ai) | ~$1,075 | Groq 幾乎永遠更便宜 | ~38 億 tokens(不實際) |
| 租 H100 (Lambda Labs) | ~$2,153 | Groq 永遠更便宜 | ~61 億 tokens(不可能) |
| 已有 RTX 4090(電費 only) | ~$20-30 | 月 50-100M token 回本 | 50-100M tokens |
| 已有 Mac Studio M4 Ultra(電費 only) | ~$15-25 | 更快回本 | 40-80M tokens |
以上 break-even 計算基於 Groq Scout 定價 $0.11/$0.34(2026-04-18 時點),假設 1:3 token ratio。
結論很清楚:除非你已經有硬體,否則雲端租用自建永遠比 Groq API 貴。
但有一個常被忽略的隱性成本:DevOps 維護時間。一個人的 side project 每週花 3-5 小時維護 Ollama/vLLM(模型更新、scaling、debug),按 $50/hr 算就是 $600-1,000/月。加上去之後,即使已有硬體,break-even 點也大幅上移。
老實說,大多數 indie maker 的月 API 費用在 $10-100 之間。到了需要認真考慮自建的那天,你的產品應該已經有足夠的營收來支撐基礎設施投資了。
Indie Maker 使用場景選型矩陣
| 任務類型 | Llama 4 Scout | Claude Haiku 4.5 | 取決於規模 |
|---|---|---|---|
| 批次文件摘要 | ✅ 首選(省 90%+) | 品質更高但貴 14x | — |
| 資料分類 / 標籤 | ✅ 首選 | — | — |
| Keyword extraction | ✅ 首選 | — | — |
| Codebase retrieval | ✅ 10M context 優勢 | — | — |
| 圖文提取 | ✅(非 EU 用戶) | ❌ 不支援 | Claude vision 更穩定 |
| 複雜 coding copilot | ❌ 落後 18% | — | ✅ Claude Sonnet |
| Multi-turn agent | ❌ tool calling 不穩定 | ✅ | — |
| 即時聊天 > 10 並發 | ⚠️ Groq rate limit | ✅ | — |
| 文章寫作(繁中) | ⚠️ 品質因任務而異 | ✅ 繁中品質更穩 | — |
混合架構是最務實的選擇:
- 批次/分類/retrieval 任務 → Groq Scout(省 90%+)
- 需要品質保證的用戶面任務 → Claude Haiku 4.5 fallback
- 假設 70% 走 Scout、30% 走 Haiku,混合成本比純 Haiku 便宜 ~60%
授權風險與長期戰略評估
Llama 4 Community License 不是一般理解的「開源」——它是 source-available,不符合 Open Source Definition(OSI 標準)。
三大授權限制
- MAU 上限:月活躍用戶 > 7 億需額外申請 Meta 授權(indie maker 實際上不會觸碰)
- EU 多模態限制:歐盟用戶不能使用 Llama 4 的視覺功能(Scout/Maverick 的 multimodal 能力)。文字功能在 EU 仍可用
- 非 OSI 開源:不是真正的開源,Meta 保留更多控制權
台灣 SaaS 開發者注意:如果你的產品有歐盟用戶,且用了 Llama 4 的 vision 功能(例如讓用戶上傳截圖分析),在技術上違反授權條款。文字功能不受影響。
Meta 的長期戰略風險
2025-2026 年出現了幾個令人擔憂的訊號:
- LeCun 離職 + VP Joelle Pineau 辭職——Meta AI 領導層大幅重組
- Digitimes 2025-12 報導 Meta 延後 Llama 接班人,內部轉向閉源
- Zuckerberg 將 GenAI org 邊緣化
建議:不要假設 Llama 5 一定開源。在依賴 Llama 4 之前,設計 provider-agnostic 的 fallback 機制。最簡單的做法是用抽象層隔離 API 呼叫(Groq → Claude 的切換只需要改 endpoint + model name),保持 20 行程式碼以內的切換成本。
以上授權資訊以 2026-04-18 時點的 Llama 4 Community License 為準,Meta 可能隨時修改條款。
決策矩陣:3 分鐘判斷 Llama 4 是否適合你
資訊量很大。壓縮成三步:
Step 1:任務類型過濾
- 你的主要工作負載是 coding copilot 或 multi-turn agent?→ 不建議切換,Claude/GPT-4o 仍然更好
- 你的主要工作負載是批次處理、分類、retrieval?→ 繼續往下
Step 2:月 token 量估算 + API 選擇
月費 = (input_tokens × 輸入單價 + output_tokens × 輸出單價) / 1,000,000 × 月調用次數
| 月 token 量 | 建議 |
|---|---|
| < 100M tokens | Groq 或 OpenRouter API(月費 < $50,不用想自建) |
| 100M-1B tokens | Groq API + Haiku fallback 混合架構 |
| > 1B tokens 且已有 GPU | 評估自建(RTX 4090 / Mac Studio) |
| > 1B tokens 且無 GPU | 仍用 API(雲端租 H100 不划算) |
Step 3:合規與地區過濾
- 有 HIPAA / SOC 2 需求?→ Together.ai(溢價約 2x,有明確認證)
- 有歐盟用戶 + 用 vision 功能?→ 排除 Llama 4 multimodal,改用 Claude vision
- 以上都沒有?→ OpenRouter(最便宜)或 Groq(最快)
風險揭露
定價隨時變化:API 市場競爭激烈,本文引用的價格是 2026 年 4 月的快照。即時數據請查閱各供應商定價頁。
Benchmark 有限:本文引用的 Rootly coding benchmark 是單一獨立測試,樣本數有限。coding 任務落後的結論有 MoE 結構性弱點的理論支撐,但不代表在所有 coding 場景都一定落後。
試算基於假設:成本計算基於 1:3 input:output token 比例和月 30,000 次呼叫的假設。你的實際 token 分佈可能差異極大——上線後第一件事是測量真實數字。
授權風險:Llama 4 Community License 的條款可能隨時修改。本文的授權分析以 2026-04-18 時點為準。
結論
Llama 4 不是「便宜的 Claude 替代品」,也不是「因為 benchmark 造假就該忽視的失敗作」。
它是一個有明確適用場景的工具:批次分類、文件摘要、codebase retrieval——在這些任務上,Groq Scout 比 Claude Haiku 便宜 93%,而且品質足以應付。但 coding copilot 和 multi-turn agent 不行——這是 MoE 架構的結構性限制,不是調一下 prompt 就能解決的。
最務實的做法:混合架構。批次任務走 Groq Scout($0.11/$0.34),需要品質保證的用戶面功能走 Claude Haiku 4.5($1/$5),20 行程式碼的 try/except 切換。這樣你既省了 60%+ 的 API 成本,又不會在關鍵任務上吃虧。
現在就開始:用上面的公式估算你的月費,對照決策矩陣,挑出第一個要測試的場景。記住——你不需要一次全換,先讓一個批次任務跑一週 Groq Scout,量化省下的費用,再決定要不要擴大。
FAQ
Llama 4 Scout 和 Maverick 應該選哪個?
大多數 indie maker 選 Scout。Scout 是 17B active / 109B total 的 MoE 模型,可以在單張 H100(INT4)或 RTX 4090(Q4)上跑,Groq API 只要 $0.11/$0.34 per 1M tokens。Maverick 是 128 experts 的更大模型,自建需要 4 張 H100,indie 規模基本上只會用 API(Groq $0.20/$0.60)。除非你需要更高品質的推理或視覺能力,否則 Scout 就夠了。
Llama 4 的 benchmark 爭議代表它不能用嗎?
不代表。Meta 提交給 LMArena 的是特調實驗版(非公開版),LeCun 2026 年 1 月確認 'results were fudged a little bit'。這讓 LMArena 排名失效,但不影響公開版的實際表現。獨立測試顯示 coding 任務確實落後(Rootly 測試 69.5% 準確率),但批次分類、摘要、retrieval 等任務的成本優勢仍然真實。結論:別用 Llama 4 當 coding copilot,但高吞吐量批次場景仍是省錢首選。
自建 Llama 4 需要多少 VRAM?
Llama 4 Scout 宣傳 '17B active parameters',但 MoE 架構的所有 expert(109B total)都需要載入記憶體。BF16 需要 ~218GB VRAM(不可行),INT4 量化需要 ~55GB(一張 H100 80GB),Q4 量化需要 ~24GB(RTX 4090 或 Mac M4 Pro 48GB)。'17B 模型' 不等於 '17GB VRAM'。
什麼時候用 API 比自建划算?
對大多數 indie maker:一直都是。雲端租 H100 月費 $1,075-2,153,需要月 38 億 token 才能比 Groq API 便宜——幾乎不可能達到。唯一例外:已經擁有 RTX 4090 或 Mac Studio(只付電費 $20-30/月),月用量超過 50-100M tokens 時自建才有意義。



