Claude Opus 4.7 的 model ID 是什麼？如何在 API 呼叫中指定？

Model ID 為 `claude-opus-4-7`。在 API 呼叫中透過 `model` 參數指定即可。可用平台包含 Anthropic API、Amazon Bedrock、Google Vertex AI 以及 Microsoft Azure AI Foundry。

task budget 的 beta header 是什麼？最小值是多少？

啟用 task budget 需要在 API 請求中加入 beta header `task-budgets-2026-03-13`。task budget 最小值為 20,000 tokens。目前為 public beta 狀態，生產環境部署前請評估穩定性。

xhigh effort 使用時，max_tokens 建議設多少？

官方文件建議 xhigh effort 的 max_tokens 起點為 64,000 tokens，視任務複雜度可再調整。xhigh effort 適用於需要多輪工具呼叫與長推理鏈的 agentic 任務，不適合用於簡單問答或純文字生成。

Opus 4.7 在哪些方面不如 Opus 4.6 或競品？

BrowseComp（網路搜尋推理）從 83.7% 退步到 79.3%，GPT-5.4 Pro 以 89.3% 領先。創意寫作社群也反映 Opus 4.7 的「創意溫度」有所下降。Opus 4.7 是 coding + agentic 的專科升級，不建議在搜尋密集型任務或創意寫作上盲目切換。

新 tokenizer 對繁體中文內容的影響有多大？

根據 Finout 的實測數據，新 tokenizer 讓相同輸入的 token 消耗增加 0–35%，繁體中文與程式碼混合的內容可達 1.35 倍。建議 migration 前先用實際的繁中 prompt 做 token count 對比測試，不要只用英文 prompt 估算。

Claude Opus 4.7 實戰指南：三個工作流真的不一樣了（2026 indie maker 版）

Opus 4.7 發布時，我第一個反應跟你可能一樣：又一個 benchmark 大躍進，SWE-bench 87.6%，聽起來很猛，但對我的日常工作流有什麼實際改變？

答案比我預期的更具體——但也有一個我差點踩到的成本陷阱。

本文不比較「Opus 4.7 vs GPT-5 哪個好」，而是直接回答：哪三個工作流現在能做到以前做不到的事，以及一個你可能沒注意到的隱藏稅率。如果你是 indie maker 或 solo developer，每個月 API 帳單對你來說不是小數字，這篇值得花 10 分鐘讀完。

TL;DR

3 項工作流升級：

task budget + xhigh effort 讓長任務「有計劃地完成」，不再半途失控
2576px 視覺升級讓截圖→操控 agent 的準確率大幅提升
SWE-bench 87.6% 讓複雜多步驟 bug 修復更可靠，/ultrareview 是 Claude Code 的 bug 偵探（Pro/Max 方案提供 3 次免費試用）

1 個成本警告：

定價維持 $5/$25 MTok，但新 tokenizer 讓繁體中文與程式碼混合內容帳單可能漲 0-35%，migrate 前先測

底線： Opus 4.7 是 coding + agentic 的專科升級，不是全科換新。按任務類型分流最聰明。

Task Budget：長任務第一次有了「計劃性」

我用 Claude 跑長任務最怕的不是它答錯，是它「跑到一半失去方向」——token 快燒完了，模型突然開始交代後事，或者直接截斷輸出。max_tokens 是硬牆，模型撞牆才知道，不是主動管理。

Opus 4.7 的 task budget 根本不同。

task budget vs max_tokens 的關鍵差異：

機制	max_tokens	task budget
模型是否知道剩餘量	否	是（即時倒數）
超出時的行為	硬截斷，輸出中斷	主動調整節奏，優雅收尾
適用場景	控制單次輸出長度	控制長任務整體 token 預算
最小值	無限制	20,000 tokens

task budget 讓模型「看到剩餘預算、主動調整工作節奏、在預算耗盡前優雅收尾」。它不是 max_tokens 的同義詞，是有回饋迴路的動態規劃。

Python 程式碼範例

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-7",
    max_tokens=8096,
    betas=["task-budgets-2026-03-13"],
    thinking={
        "type": "enabled",
        "budget_tokens": 32000  # 任務預算：32K tokens
    },
    messages=[{
        "role": "user",
        "content": "請對這個 GitHub repo 進行完整的安全性審查，找出所有潛在漏洞並提供修復建議。"
    }]
)

print(response.content)

TypeScript 程式碼範例

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

const response = await client.beta.messages.create({
  model: "claude-opus-4-7",
  max_tokens: 8096,
  betas: ["task-budgets-2026-03-13"],
  thinking: {
    type: "enabled",
    budget_tokens: 32000,  // 任務預算：32K tokens
  },
  messages: [
    {
      role: "user",
      content: "請對這個 codebase 進行完整的重構評估，列出優先順序與執行計劃。",
    },
  ],
});

console.log(response.content);

建議的 budget 設定起點

根據任務複雜度，我的使用經驗如下：

20K：單一文件的深度分析、中等複雜度的 code review
32K–64K：跨文件重構評估、安全性稽核、複雜 bug 調查
64K–128K：完整 codebase 分析、長時間 agentic 任務（需同時啟用 xhigh effort）

重要：task budget 目前為 public beta 狀態，啟用需加入 beta header task-budgets-2026-03-13。生產環境部署前請評估穩定性與你的錯誤處理策略。

xhigh Effort：不是燒更多 Token，是讓 Agent 不斷線

很多人看到 xhigh effort 第一個反應是「最強等級，全部用 xhigh 就對了」。這個直覺是錯的。

Effort level 定位說明：

等級	適用場景	Token 消耗
standard	一般問答、簡單文字生成	低
high	中等複雜度 coding、分析型任務	中
xhigh	多輪工具呼叫 + 長推理鏈的 agentic 任務	高
max	需要最大思考深度的特殊任務	最高

xhigh 是插在 high 和 max 之間的新等級，專為「需要反覆工具呼叫、長時間探索的複雜 agentic 任務」設計。

xhigh effort 決策流程：

任務是否涉及多輪工具呼叫（web search、code execution、file I/O）？
├── 是 → 推理鏈是否需要跨多步驟？
│   ├── 是 → 使用 xhigh effort（max_tokens 起點 64K）
│   └── 否 → 使用 high effort
└── 否 → 純文字問答或簡單 coding 任務？
    ├── 是 → 使用 standard 或 high
    └── 任務需要最大思考深度 → 使用 max

錯誤使用的代價： 把 xhigh 用在對話型任務或簡單 coding 問答，只會增加延遲與 token 消耗，品質不會因此提升。Hacker News 討論串（#47793411）裡有用戶反映誤用 xhigh 後回應時間增加 3–5 倍，答案品質卻和 high 差不多。

常見術語對照（繁中）：

英文術語	繁中說明
xhigh effort	超高強度推理，適合工具密集型 agentic 任務
task budget	任務 token 預算，模型主動感知並調整節奏
agentic task	代理型任務，需多步驟工具呼叫與自主決策
tool use	工具呼叫，如搜尋、執行程式碼、讀寫檔案

視覺升級 2576px：截圖轉程式碼的工作流現在可靠了

Opus 4.7 的視覺解析度從約 880px 提升到 2576px，官方說是 3 倍提升。但對一般使用者最實際的問題是：這對我的工作流有什麼意義？

答案取決於你在做什麼。

受益最大的場景

1. Computer-use agent（網頁自動化 / 桌面操控） 這是視覺升級影響最大的場景。2576px 讓 Claude 能正確讀取密集 UI 截圖——細小按鈕、浮動選單、表格資料、小字提示都不再模糊。根據實際測試，原本在 Opus 4.6 上需要反覆重試的 UI 操作，在 Opus 4.7 的準確率有明顯改善。

2. 設計稿轉 code（Design-to-Code） 前端工程師用截圖轉 code 時，最怕的是模型看不清小字號、細邊框、精確 padding。2576px 的解析度讓這類任務的輸出品質提升幅度明顯。

3. PDF / 文件解析 密集排版的 PDF（如財報、法律文件、技術規格書）解析準確率提升。

4. 高解析度圖表分析 複雜的技術架構圖、資料視覺化、設計系統文件，現在可以更精確地讀取細節。

快速自測：這個升級對你有意義嗎？

你是否在用 Claude 做網頁自動化或桌面操控？ → 立刻重測準確率，升級 ROI 高
你是否接設計稿轉 code 的工作？ → 值得評估，準確率有感提升
你是否只是問問圖片內容或上傳截圖做簡單問答？ → 升級 ROI 相對低，優先考慮成本

Sonnet 視覺能力 vs Opus 4.7 差距： 官方文件目前沒有明確的視覺 benchmark 對比數字，但從實際使用經驗來看，在處理密集 UI 截圖和設計稿轉 code 這類任務上，Opus 4.7 的準確率優勢是存在的。如果你的工作流視覺任務占比低於 30%，Sonnet 的性價比仍然更高。

/ultrareview：Claude Code 的自動 Bug 偵探

/ultrareview 是 Claude Code 內建的多角度程式碼審查指令，能檢查程式碼變更並標記 bug 與設計問題。Pro 和 Max 方案的用戶可獲得 3 次免費試用。對 solo developer 而言，它有效替代了部分原本需要同事幫忙的 code review 流程。

使用方式

在 Claude Code 中，完成程式碼修改後直接輸入：

/ultrareview

Claude 會從多個角度審查你的程式碼：

邏輯錯誤與邊界條件
安全性漏洞（尤其是網路安全相關）
效能問題
可讀性與維護性

最適合觸發的情境

PR 前自查：準備送 PR 之前，先跑一次 /ultrareview 攔截低級錯誤
安全性敏感功能：涉及認證、資料處理、API 金鑰管理的程式碼
重構後驗證：大幅重構後確認邏輯沒有被意外破壞
引入外部套件後：確認整合點沒有安全疑慮

不要誇大它的邊界

/ultrareview 是有能力上限的——它能找出程式碼層面的問題，但無法替代真正理解業務邏輯的人工 review。Opus 4.7 的 SWE-bench Verified 87.6% 和 CursorBench 70% 的數字，代表的是「複雜多步驟 bug 修復」的能力，不是「所有 coding 任務都能自動完成」的承諾。

成本真相：帳單可能悄悄漲了 35%

這是我覺得最重要、也最容易被忽略的一個變數。

Anthropic 宣布 Opus 4.7 維持 Opus 4.6 的定價：$5/MTok input、$25/MTok output。這是事實。

但這裡有一個沉默的成本增幅：新 tokenizer。

新 tokenizer 的實際衝擊

根據公開估算（Finout 整理），新 tokenizer 讓相同內容的 token 消耗增加 0–35%，程式碼、結構化資料與非英文文本最容易達到 1.35 倍上限。

換句話說：

你的 prompt 沒變
token 單價沒變
但消耗的 token 數增加了
帳單悄悄漲了

Anthropic 官方 migration guide 也承認 tokenizer 有變動，但沒有量化影響幅度。

台灣使用者的特別提醒

如果你的工作流同時涉及繁體中文 prompt 和程式碼，需要特別注意：非英文文本本來就比英文耗費更多 token，加上新 tokenizer 最高 35% 的增幅上限，混合使用場景的衝擊值得事先測量。不過 35% 是公開估算的上限而非平均值，實際影響因內容而異，建議用下方的 3 步驟測試來確認你的真實成本變化。

3 步驟 Token 消耗對比測試

Step 1：選代表性 prompt 從你實際工作流中選 3–5 個代表性請求，混合包含繁體中文和程式碼的那種，不要只用英文 prompt 估算。

Step 2：兩版模型各跑一次 分別用 claude-opus-4-6-20251001 和 claude-opus-4-7 跑相同 prompt，記錄各自的 usage.input_tokens 和 usage.output_tokens。

Step 3：計算倍率

token 消耗倍率 = Opus 4.7 總 token / Opus 4.6 總 token
實際成本增幅 = (倍率 - 1) × 100%

如果倍率超過 1.3（即帳單增幅超過 30%），在 migration 前值得重新評估哪些工作流真的需要 Opus 4.7。

如何向客戶解釋 tokenizer 成本： 對於幫客戶建議 AI 工具的顧問，可以這樣說明：「Opus 4.7 的定價沒漲，但就像油價沒漲、但你的車開始比較耗油——實際加油費還是增加了。我們要先測你們實際的 prompt 消耗，才能準確估算 migration 後的預算影響。」

Opus 4.7 vs 競品 vs Sonnet：任務分流決策矩陣

Opus 4.7 不是通用最強——它是 coding + agentic 工作流的專科醫師。按任務類型分流，才是最有效率的策略。

任務類型	推薦模型	理由	預估成本節省
複雜 agentic 工作流	Opus 4.7 + xhigh + task budget	SWE-bench 87.6%，長任務可控	—
複雜多步驟 bug 修復	Opus 4.7	CursorBench 70%，業界最高	—
日常 code completion	Sonnet 4.6	性價比更高，速度更快	60–80% 節省
設計稿轉 code（高密度 UI）	Opus 4.7	2576px 視覺升級有感	—
搜尋密集型研究	觀望 / GPT-5.4	BrowseComp 退步至 79.3%，GPT-5.4 Pro 89.3% 領先	—
創意寫作	先測試再決定	HN 社群反映「溫度下降」，Opus 4.6 可能更好	—
高頻輕量對話型任務	Sonnet 4.6 或更小模型	Opus 成本 5–10 倍於 Sonnet	80–90% 節省
截圖轉程式碼 / 視覺操控	Opus 4.7	視覺解析度 3x 提升	—

關於視覺能力（Wei 的情境）： 如果你的接案工作主要是設計稿轉 code，Opus 4.7 的視覺升級帶來的準確率提升可能讓你在交付品質上有競爭優勢。但如果視覺任務只占工作的 10–20%，Sonnet 4.6 + 偶爾用 Opus 4.7 的混合策略更划算。

Migration 決策樹：我現在應該切換嗎？

不建議一次全面切換。下面是我自己做決定的方法：

Step 1：識別工作流類型

把你現在的 Claude 使用場景分成三類：

Agentic 任務：多步驟、涉及工具呼叫、需要長推理鏈
Vision 任務：截圖分析、設計稿轉 code、PDF 解析
純文字任務：問答、內容生成、簡單 code completion

Step 2：測試 token 消耗倍率

針對每個類別，用前面提到的 3 步驟對比測試。特別注意：繁體中文 + 程式碼混合的 prompt 優先測，不要用純英文 prompt 估算。

Step 3：計算月費影響

月費影響 = 目前月費 × token 消耗倍率
新增費用 = 月費影響 - 目前月費

如果新增費用在可接受範圍內，而且任務類型是 Agentic 或 Vision，繼續 Step 4。

Step 4：按類型分批切換

建議優先切換：

複雜 agentic 工作流 → 立刻切換，task budget + xhigh effort 升級明顯
設計稿轉 code / computer-use → 值得切換，視覺升級有感

建議暫緩切換：

搜尋密集型任務 → 等 BrowseComp 回歸後評估
創意寫作 → 先 A/B 測試再決定
高頻輕量任務 → 成本考量優先，Sonnet 更合適

新版 model ID 與平台可用性

Model ID：claude-opus-4-7
可用平台：Anthropic API、Amazon Bedrock、Google Vertex AI、Microsoft Azure AI Foundry
查詢方式：Anthropic 官方 migration guide 維護最新 model ID 對應表

風險揭露

使用 Opus 4.7 前，這幾個風險值得明確認知：

成本風險：tokenizer 隱藏稅率 如前述，繁體中文 + 程式碼混合內容的 token 消耗可達 1.35 倍。這不是小數字——每月 $200 的 API 費用，在極端情況下可能變成 $290。migration 前務必跑對比測試。

功能退步：BrowseComp 與創意寫作 BrowseComp（網路搜尋推理）從 83.7% 退步到 79.3%，GPT-5.4 Pro 以 89.3% 領先。如果你的工作流依賴搜尋推理型任務，Opus 4.7 不是最佳選擇。創意寫作社群的「溫度下降」反饋也值得注意——在確認品質前，不建議在創意寫作任務上全面切換。

task budget 的 beta 狀態 task budget 目前為 public beta，需要透過 beta header 啟用。生產環境部署前，應評估以下問題：

API 合約穩定性（beta 期間行為可能調整）
錯誤處理策略（預算耗盡後的 graceful degradation）
監控機制（token 消耗與任務完成率的追蹤）

xhigh effort 誤用的代價 把 xhigh effort 用在不適合的任務上（純問答、簡單 code completion），只會增加延遲和成本，不會提升品質。使用前請確認任務類型符合「多輪工具呼叫 + 長推理鏈」的定義。

不適合 Opus 4.7 的任務清單：

搜尋密集型研究（BrowseComp 退步）
創意寫作（社群反映品質下降，待驗證）
成本敏感的高頻輕量任務（Sonnet 性價比更高）
對模型行為穩定性要求極高的生產環境（task budget beta 狀態）

結論

Opus 4.7 是我在過去一年看到的最具體的 Claude 升級——不是因為 benchmark 數字，而是因為 task budget 和 xhigh effort 的組合，第一次讓「把複雜任務丟給 AI、去睡覺、早上看結果」從願望變成可靠的工作流。

但這個升級有邊界：它是 coding + agentic 的專科升級，不是全科換新。BrowseComp 退步、創意寫作溫度下降、新 tokenizer 成本陷阱，這些都是真實的取捨。

我的建議：先跑 token 對比測試，再決定哪些工作流值得升級。不要因為興奮就全面切換，也不要因為成本疑慮就完全不動。找出你的 agentic 任務清單，那才是 Opus 4.7 真正能幫你的地方。

相關資源：

如果你已經在用 Claude Code 做 agentic 開發，Claude Code 平行工作流指南可以幫你設計更高效的多任務架構，搭配 Opus 4.7 的 task budget 使用效果更好。