Shareuhack | Llama 4 Indie Maker 完整指南:Scout vs Maverick 怎麼選、API vs 自建怎麼算
Llama 4 Indie Maker 完整指南:Scout vs Maverick 怎麼選、API vs 自建怎麼算

Llama 4 Indie Maker 完整指南:Scout vs Maverick 怎麼選、API vs 自建怎麼算

April 18, 2026
LunaMiaEno
撰寫Luna·研究Mia·審查Eno·持續更新·12 分鐘閱讀

Llama 4 Indie Maker 完整指南:Scout vs Maverick 怎麼選、API vs 自建怎麼算

Meta 在 2026 年 4 月 5 日發布了 Llama 4,然後事情就變得混亂了。

一邊是「Maverick benchmark 超越 GPT-4o」的官方宣傳,另一邊是 LeCun 本人確認「results were fudged a little bit」的爭議。HN 上有人說它是廢物,也有人說它跑批次作業省了 90% 的 API 費用。

如果你是 indie maker,正在考慮「要不要把一些工作負載從 Claude / GPT-4o 切換到 Llama 4」,你需要的不是另一篇 benchmark 討論文,而是一套成本計算 + 場景選型的決策框架。這篇文章就是。

TL;DR

  • Scout 是 indie maker 的選擇(Groq API $0.11/$0.34),Maverick 用 API 就好($0.20/$0.60),不要自建
  • Benchmark 爭議是真的(LeCun 確認),coding 任務確實落後,但批次/retrieval 任務的成本優勢不受影響
  • 「17B active parameters」不等於 17GB VRAM——MoE 全部 109B params 都要載入,INT4 至少 55GB
  • 雲端租 H100 自建幾乎永遠比 Groq API 貴;已有 RTX 4090/Mac Studio 才考慮自建
  • 10M context 是 retrieval 神器(98% 準確率),不是 synthesis 神器(2M+ 品質下降)
  • Together.ai Scout 定價 $0.18/$0.59——比 OpenRouter $0.08/$0.30 貴 2 倍,合規需求才值得溢價

Llama 4 是什麼?Scout vs Maverick 30 秒讀懂

Llama 4 用的是 MoE(Mixture of Experts)架構——不是所有參數每次都啟動,而是每次推理只用一部分 expert。這讓模型「看起來很大,跑起來不算慢」。

ScoutMaverick
Active params17B17B
Total params109B(16 experts)400B(128 experts)
Context10M tokens1M tokens
最低自建硬體1x H100 (INT4) / RTX 4090 (Q4)4x H100 (INT4)
Groq API 定價$0.11/$0.34$0.20/$0.60
定位GPT-4o mini 等級 + 超長 contextGPT-4o 等級(有爭議)

大多數 indie maker 的答案是 Scout。 Maverick 自建需要 4 張 H100,indie 規模不會這樣做。Maverick 要用就走 API——它在推理品質上的提升,對批次作業和 retrieval 任務來說通常不值得 2 倍的溢價。

Benchmark 爭議真相:我應該信任 Llama 4 嗎?

先講結論:LMArena 排名無效,coding 場景真的落後,批次場景仍有成本優勢。

事件完整還原:

  1. Meta 提交了一個名為「Llama-4-Maverick-03-26-Experimental」的 chat-tuned 實驗版(不是公開下載的版本)到 LMArena
  2. 研究員 Nathan Lambert 等人發現提交版本與公開版本不一致
  3. Meta VP Ahmad Al-Dahle 最初否認,LMArena 隨後修改政策禁止特調版提交
  4. 2026 年 1 月,剛離職的 Meta AI 首席 Yann LeCun 確認:「results were fudged a little bit」
  5. Rootly 的獨立 coding benchmark:Llama 4 最後一名,69.5% 準確率(落後領先者 18%)

HN 社群的共識是:「It feels like a flop because the expectations are real.」

你應該怎麼解讀?

  • LMArena 的排名不能當參考——那是用特調版刷出來的
  • Coding 任務的落差是 MoE 架構的結構性弱點——stateful coding 需要跨步驟追蹤狀態,MoE 的 expert routing 在這方面天然不利
  • 但批次分類、文件摘要、retrieval QA 等「每次呼叫相對獨立」的任務完全不受影響——這些任務看的是成本效率,不是排行榜

信心評級:benchmark 爭議的事實(HIGH confidence,多方交叉確認)。coding 落後的結論(MEDIUM confidence,Rootly 為單一獨立測試,但 MoE 結構性弱點有理論支撐)。

API 費用完整比較表

不是所有 Llama 4 API 供應商的定價都一樣——差距比你想的大。

本表數據截至 2026 年 4 月,以各供應商官方定價頁為準。

供應商Scout 輸入 $/1MScout 輸出 $/1MMaverick 輸入 $/1MMaverick 輸出 $/1M特色
OpenRouter$0.08$0.30$0.15$0.60最便宜,自動路由
Groq$0.11$0.34$0.20$0.60最快(LPU ~408 tok/s)
Together.ai$0.18$0.59$0.55$2.19SOC 2 Type II + HIPAA

三個選擇邏輯

  • 成本優先 → OpenRouter(Scout 輸出 $0.30,最便宜)
  • 速度優先 → Groq(LPU 架構,p50 latency < 500ms)
  • 合規需求(HIPAA / SOC 2)→ Together.ai(溢價約 2 倍,但有明確合規認證)

Together.ai 是 Meta 官方合作夥伴,但「官方合作夥伴」不代表「最優性價比」。如果你沒有明確的合規需求,選 OpenRouter 或 Groq。

作為對比:Claude Sonnet 4.6 輸出定價 $15.00/1M tokens,Groq Scout 只要 $0.34——便宜 44 倍。但價格不是唯一的決策因素,後面會解釋。

Llama 4 vs Claude / GPT-4o 成本計算

用實際任務來算,不是抽象定價比較。

假設條件:1:3 input:output token 比例(200 input + 600 output tokens per call),月 30,000 次呼叫(每天約 1,000 次)。

方案月費計算月費
Groq Scout(200×$0.11 + 600×$0.34) / 1M × 30,000$6.78
OpenRouter Scout(200×$0.08 + 600×$0.30) / 1M × 30,000$5.88
Claude Haiku 4.5(200×$1.00 + 600×$5.00) / 1M × 30,000$96.00
Claude Sonnet 4.6(200×$3.00 + 600×$15.00) / 1M × 30,000$288.00
GPT-4o mini(200×$0.15 + 600×$0.60) / 1M × 30,000$11.70

Groq Scout 比 Haiku 4.5 便宜 93%,比 Sonnet 4.6 便宜 97%

但省 90%+ 不代表應該全換。下面是場景分析:

適合切換到 Llama 4 的任務

  • 批次文件摘要(每篇獨立,不需要跨文件推理)
  • 資料分類 / 標籤(keyword extraction、sentiment analysis)
  • Codebase navigation / retrieval(找特定函數、追蹤 call path)
  • 圖文提取(Scout 原生 multimodal,非 EU 用戶可用)

不適合切換的任務

  • 複雜多步驟 coding(Rootly 測試落後 18%)
  • Multi-turn tool calling agent(Maverick 截至 2026-04 仍標註 "under development")
  • 即時聊天 with 超長 context(TTFT > 60 秒 at 10M tokens)
  • Safety-critical 輸出(長 context 幻覺率缺乏可靠數據)

如何估算你自己的 token 分佈? 在你的 API 呼叫中開啟 usage logging,記錄一週的 prompt_tokens 和 completion_tokens,算出你的實際 input:output 比例。不同應用類型差異很大——chatbot 通常 1:3,摘要任務可能 10:1。用你的真實數字代入上面的公式,而不是我的假設。

10M Token Context 實際能做什麼

Scout 的 10M token context window 是真實功能,不是行銷噱頭——但你需要理解它能做什麼和不能做什麼。

Meta 官方 NIAH(Needle In A Haystack)benchmark 顯示:10M context 下 retrieval 任務準確率 98%

但這裡有一個關鍵區分:context-as-database(retrieval) vs context-as-working-memory(synthesis)

Retrieval(有效,10M 可用)

在超長 context 中找到特定資訊——像 Ctrl+F 但更聰明:

  1. 完整 codebase 分析(500K-2M tokens):找特定 API 呼叫、追蹤 dependency chain、生成 onboarding 文件
  2. 法律/合約批次處理:50+ 合約同批比較條款矛盾(10M tokens ≈ 7,000 頁文件)
  3. 長期研究助手:6-12 個月的 notes + papers 常駐 context,隨時查詢

Synthesis(有限,2M+ 品質下降)

要求模型跨大量資料合成新觀點或重構——像讓它「讀完這 50 個檔案然後重寫架構」:

社群測試和分析指出,synthesis 任務在超過 2M tokens 後品質顯著下降。「把整個 codebase 丟進去請 Llama 4 重構」是不切實際的期待。

結論:10M context 是 context-as-database——用它來搜尋、定位、比對。不是 context-as-working-memory——別期待它在 10M tokens 上做深度合成。

自建 Llama 4 的硬體需求:別被「17B」騙了

這是最容易犯的技術誤解:「Scout 是 17B active parameters,所以 VRAM 需求跟 17B dense model 差不多。」

錯。 MoE(Mixture of Experts)的所有 expert 參數都需要載入記憶體,不只是每次 forward pass 啟動的那部分。

計算:

  • 109B total params × 2 bytes (BF16) = ~218GB VRAM(不可行,消費級)
  • 109B × 0.5 bytes (INT4) = ~55GB VRAM(1 張 H100 80GB)
  • 對比:17B dense model 的 INT4 只需 ~9GB
模型精度VRAM 需求推薦硬體效能
ScoutBF16~218GB不可行(消費級)
ScoutINT4~55GB1x H100 80GB標準 production
ScoutQ4 (Ollama)~24GBRTX 4090 / Mac M4 Pro 48GB25-40 tok/s
Scout1.78-bit (Unsloth)~14GBRTX 3080 16GB~20 tok/s(品質損失大)
MaverickINT4~200GB4x H100非 indie 規模

Ollama 快速安裝

# 安裝 Ollama(macOS)
brew install ollama

# 下載 Llama 4 Scout(Q4,需 24GB+ VRAM)
ollama pull llama4

# 執行
ollama run llama4

效能預期(社群回報,MEDIUM confidence):

  • M4 Pro Mac 48GB:~30-40 tok/s
  • RTX 4090 24GB:~25-35 tok/s
  • M3 Max 36GB:~20-28 tok/s

注意:Maverick 不支援 Ollama consumer 部署(需 200GB+ VRAM)。

API vs 自建成本試算:什麼時候自建才划算?

先看數字。

自建方案月成本vs Groq ScoutBreak-even 月 token 量
租 H100 (Vast.ai)~$1,075Groq 幾乎永遠更便宜~38 億 tokens(不實際)
租 H100 (Lambda Labs)~$2,153Groq 永遠更便宜~61 億 tokens(不可能)
已有 RTX 4090(電費 only)~$20-30月 50-100M token 回本50-100M tokens
已有 Mac Studio M4 Ultra(電費 only)~$15-25更快回本40-80M tokens

以上 break-even 計算基於 Groq Scout 定價 $0.11/$0.34(2026-04-18 時點),假設 1:3 token ratio。

結論很清楚:除非你已經有硬體,否則雲端租用自建永遠比 Groq API 貴。

但有一個常被忽略的隱性成本:DevOps 維護時間。一個人的 side project 每週花 3-5 小時維護 Ollama/vLLM(模型更新、scaling、debug),按 $50/hr 算就是 $600-1,000/月。加上去之後,即使已有硬體,break-even 點也大幅上移。

老實說,大多數 indie maker 的月 API 費用在 $10-100 之間。到了需要認真考慮自建的那天,你的產品應該已經有足夠的營收來支撐基礎設施投資了。

Indie Maker 使用場景選型矩陣

任務類型Llama 4 ScoutClaude Haiku 4.5取決於規模
批次文件摘要✅ 首選(省 90%+)品質更高但貴 14x
資料分類 / 標籤✅ 首選
Keyword extraction✅ 首選
Codebase retrieval✅ 10M context 優勢
圖文提取✅(非 EU 用戶)❌ 不支援Claude vision 更穩定
複雜 coding copilot❌ 落後 18%✅ Claude Sonnet
Multi-turn agent❌ tool calling 不穩定
即時聊天 > 10 並發⚠️ Groq rate limit
文章寫作(繁中)⚠️ 品質因任務而異✅ 繁中品質更穩

混合架構是最務實的選擇

  • 批次/分類/retrieval 任務 → Groq Scout(省 90%+)
  • 需要品質保證的用戶面任務 → Claude Haiku 4.5 fallback
  • 假設 70% 走 Scout、30% 走 Haiku,混合成本比純 Haiku 便宜 ~60%

授權風險與長期戰略評估

Llama 4 Community License 不是一般理解的「開源」——它是 source-available,不符合 Open Source Definition(OSI 標準)。

三大授權限制

  1. MAU 上限:月活躍用戶 > 7 億需額外申請 Meta 授權(indie maker 實際上不會觸碰)
  2. EU 多模態限制:歐盟用戶不能使用 Llama 4 的視覺功能(Scout/Maverick 的 multimodal 能力)。文字功能在 EU 仍可用
  3. 非 OSI 開源:不是真正的開源,Meta 保留更多控制權

台灣 SaaS 開發者注意:如果你的產品有歐盟用戶,且用了 Llama 4 的 vision 功能(例如讓用戶上傳截圖分析),在技術上違反授權條款。文字功能不受影響。

Meta 的長期戰略風險

2025-2026 年出現了幾個令人擔憂的訊號:

  • LeCun 離職 + VP Joelle Pineau 辭職——Meta AI 領導層大幅重組
  • Digitimes 2025-12 報導 Meta 延後 Llama 接班人,內部轉向閉源
  • Zuckerberg 將 GenAI org 邊緣化

建議:不要假設 Llama 5 一定開源。在依賴 Llama 4 之前,設計 provider-agnostic 的 fallback 機制。最簡單的做法是用抽象層隔離 API 呼叫(Groq → Claude 的切換只需要改 endpoint + model name),保持 20 行程式碼以內的切換成本。

以上授權資訊以 2026-04-18 時點的 Llama 4 Community License 為準,Meta 可能隨時修改條款。

決策矩陣:3 分鐘判斷 Llama 4 是否適合你

資訊量很大。壓縮成三步:

Step 1:任務類型過濾

  • 你的主要工作負載是 coding copilot 或 multi-turn agent?→ 不建議切換,Claude/GPT-4o 仍然更好
  • 你的主要工作負載是批次處理、分類、retrieval?→ 繼續往下

Step 2:月 token 量估算 + API 選擇

月費 = (input_tokens × 輸入單價 + output_tokens × 輸出單價) / 1,000,000 × 月調用次數
月 token 量建議
< 100M tokensGroq 或 OpenRouter API(月費 < $50,不用想自建)
100M-1B tokensGroq API + Haiku fallback 混合架構
> 1B tokens 且已有 GPU評估自建(RTX 4090 / Mac Studio)
> 1B tokens 且無 GPU仍用 API(雲端租 H100 不划算)

Step 3:合規與地區過濾

  • 有 HIPAA / SOC 2 需求?→ Together.ai(溢價約 2x,有明確認證)
  • 有歐盟用戶 + 用 vision 功能?→ 排除 Llama 4 multimodal,改用 Claude vision
  • 以上都沒有?→ OpenRouter(最便宜)或 Groq(最快)

風險揭露

定價隨時變化:API 市場競爭激烈,本文引用的價格是 2026 年 4 月的快照。即時數據請查閱各供應商定價頁

Benchmark 有限:本文引用的 Rootly coding benchmark 是單一獨立測試,樣本數有限。coding 任務落後的結論有 MoE 結構性弱點的理論支撐,但不代表在所有 coding 場景都一定落後。

試算基於假設:成本計算基於 1:3 input:output token 比例和月 30,000 次呼叫的假設。你的實際 token 分佈可能差異極大——上線後第一件事是測量真實數字。

授權風險:Llama 4 Community License 的條款可能隨時修改。本文的授權分析以 2026-04-18 時點為準。

結論

Llama 4 不是「便宜的 Claude 替代品」,也不是「因為 benchmark 造假就該忽視的失敗作」。

它是一個有明確適用場景的工具:批次分類、文件摘要、codebase retrieval——在這些任務上,Groq Scout 比 Claude Haiku 便宜 93%,而且品質足以應付。但 coding copilot 和 multi-turn agent 不行——這是 MoE 架構的結構性限制,不是調一下 prompt 就能解決的。

最務實的做法:混合架構。批次任務走 Groq Scout($0.11/$0.34),需要品質保證的用戶面功能走 Claude Haiku 4.5($1/$5),20 行程式碼的 try/except 切換。這樣你既省了 60%+ 的 API 成本,又不會在關鍵任務上吃虧。

現在就開始:用上面的公式估算你的月費,對照決策矩陣,挑出第一個要測試的場景。記住——你不需要一次全換,先讓一個批次任務跑一週 Groq Scout,量化省下的費用,再決定要不要擴大。

FAQ

Llama 4 Scout 和 Maverick 應該選哪個?

大多數 indie maker 選 Scout。Scout 是 17B active / 109B total 的 MoE 模型,可以在單張 H100(INT4)或 RTX 4090(Q4)上跑,Groq API 只要 $0.11/$0.34 per 1M tokens。Maverick 是 128 experts 的更大模型,自建需要 4 張 H100,indie 規模基本上只會用 API(Groq $0.20/$0.60)。除非你需要更高品質的推理或視覺能力,否則 Scout 就夠了。

Llama 4 的 benchmark 爭議代表它不能用嗎?

不代表。Meta 提交給 LMArena 的是特調實驗版(非公開版),LeCun 2026 年 1 月確認 'results were fudged a little bit'。這讓 LMArena 排名失效,但不影響公開版的實際表現。獨立測試顯示 coding 任務確實落後(Rootly 測試 69.5% 準確率),但批次分類、摘要、retrieval 等任務的成本優勢仍然真實。結論:別用 Llama 4 當 coding copilot,但高吞吐量批次場景仍是省錢首選。

自建 Llama 4 需要多少 VRAM?

Llama 4 Scout 宣傳 '17B active parameters',但 MoE 架構的所有 expert(109B total)都需要載入記憶體。BF16 需要 ~218GB VRAM(不可行),INT4 量化需要 ~55GB(一張 H100 80GB),Q4 量化需要 ~24GB(RTX 4090 或 Mac M4 Pro 48GB)。'17B 模型' 不等於 '17GB VRAM'。

什麼時候用 API 比自建划算?

對大多數 indie maker:一直都是。雲端租 H100 月費 $1,075-2,153,需要月 38 億 token 才能比 Groq API 便宜——幾乎不可能達到。唯一例外:已經擁有 RTX 4090 或 Mac Studio(只付電費 $20-30/月),月用量超過 50-100M tokens 時自建才有意義。

這篇文章對你有幫助嗎?