Shareuhack | Qwen3 繁體中文完整指南:版本選型、免費路徑、Ollama 部署坑點與誠實評測(2026)
Qwen3 繁體中文完整指南:版本選型、免費路徑、Ollama 部署坑點與誠實評測(2026)

Qwen3 繁體中文完整指南:版本選型、免費路徑、Ollama 部署坑點與誠實評測(2026)

April 14, 2026
LunaMiaEno
撰寫Luna·研究Mia·審查Eno·持續更新·12 分鐘閱讀

Qwen3 繁體中文完整指南:版本選型、免費路徑與 Ollama 部署坑點(2026)

開源 AI 社群已經悄悄換跑道了。Qwen3 系列在 HackerNews 拿下 869 分的最高互動度、LocalLLaMA 社群的默認選擇也從 Llama 換成了 Qwen,但你打開 Google 搜尋繁體中文的 Qwen3 指南,找到的不是只涵蓋某個版本的片段新聞稿,就是沒有實際使用建議的 benchmark 數字。

這篇文章用台灣使用者的視角,整理 Qwen3 到 Qwen3.6-Plus 的完整版本導航、繁體中文輸出品質的誠實評估、三條免費試用路徑的實際限制,以及 Ollama 本地部署時你一定會踩到的兩個已確認 bug。

TL;DR

  • 繁體中文輸出:預設可能夾雜簡體字形,在 system prompt 加上「請使用正體中文(繁體中文)回覆」後品質明顯改善,但整體仍略遜於簡體中文表現
  • 零門檻免費試用OpenRouter Playground 可直接試用 Qwen3.6-Plus(有流量限制,免費 tier 可能隨時終止);想完全離線就用 Ollama 本地部署
  • Ollama + Qwen3.5 的坑:Thinking Mode 無限迴圈(GitHub #12917)和 Tool Calling 失效(GitHub #14493)是已確認 bug,不是你電腦的問題。解法是用 Qwen3 原始版本或改用 llama.cpp
  • API 成本:文案生成月費大約 $0.10 USD;但 Agentic Coding 模式的 token 消耗可以快速超過你的 Claude 訂閱費

Qwen3 系列有六個主要版本,選錯了白費力氣

先搞清楚一件事:媒體報的「Qwen3」、「Qwen3.5」、「Qwen3.6-Plus」根本不是同一個東西。這個系列從 2025 年 4 月到 2026 年 4 月持續發布了六個主要版本,功能差異大到選錯版本等於白費力氣。

版本發布日期核心特色最適場景
Qwen32025-04-298 個模型(2 MoE + 6 dense),119 語言,Apache 2.0本地部署入門(最穩定)
Qwen3-Max-Thinking2026-01-27推理型旗艦,含圖片/影片生成複雜邏輯推理、數學
Qwen3.52026-02-17397B 參數,201 語言,agent 強化大型 AI agent 工作流
Qwen3.5-Omni2026-03-30多模態(文字 + 圖片 + 音頻 + 影片),256K context語音辨識、影片分析
Qwen3.6-Plus2026-04-021M token context,SWE-bench 78.8%Agentic Coding、長文處理

怎麼選? 如果你是第一次接觸,日常中文寫作用 Qwen3.5-9B(本地免費、穩定度高)就夠了。需要處理超長文件或寫程式,直接用 Qwen3.6-Plus 的 API。想玩語音辨識或影片分析,Qwen3.5-Omni 是目前 Gemini 3.1 Pro 的直接競品。

有一點要特別注意:Qwen3.5 系列在 Ollama 上有已知 bug(後面會詳細說),如果你打算本地跑,用 Qwen3 原始版本反而更穩。

繁體中文輸出品質誠實評測:正體字、台灣用語、幻覺問題

Qwen3 官方公告明確把「Traditional Chinese(繁體中文)」列在 119 語言支援清單中。聽起來很棒,但實際用起來,繁體中文其實是個「第二等公民」。

預設輸出會夾雜簡體字形。 不加任何指令直接問問題,你可能會看到「发」而不是「發」、「网」而不是「網」。這不是 bug,而是訓練資料以簡體中文為主的結果。TMMLU+(台灣多模態語言理解評測)的學術數據也確認:繁體中文的整體表現略遜於簡體中文。

解法很簡單但你必須知道。 在 system prompt 開頭加上這行:

請使用正體中文(繁體中文)回覆,使用台灣慣用的用詞和語法。

加了之後效果明顯改善。「健保」「捷運」「悠遊卡」這類台灣特有用詞通常能正確使用,但「台」vs「臺」這種字形差異還是需要你明確要求。

幻覺問題是真的,不能忽略。 台灣部落客 The Walking Fish 的實測發現,物理模擬測試(球穿越六邊形邊界)直接失敗,FAQ 摘要任務會產生不存在的內容。Twitter 上也有開發者直接警告:「Qwen 系列幻覺比較嚴重,別全信它的主觀描述,有時候它還會靠幻覺撒謊。」

老實說,拿 Qwen3 來輔助寫部落格文章、翻譯初稿、整理筆記這類低風險任務很好用。但如果是財務數據、法律條文、醫療資訊,拜託一定要人工覆核。

另外一個限制:繁體中文的圖像生成目前還是有問題。社群確認「遇上繁體中文時,AI 無法正確生成」的老問題依然存在。

我的 MacBook 或 PC 顯卡能跑 Qwen3 嗎?硬體需求完整對照

想在自己電腦上跑 Qwen3,第一個問題一定是「我的硬體夠不夠?」。根據 hardware-corner.netwillitrunai.com 的完整測試,以下是 Q4 量化版本的 VRAM 需求:

模型VRAM 需求(Q4)Mac 統一記憶體PC 顯卡
Qwen3-0.6B / 1.7B< 2GBM1 Air 8GB ✅任何獨立顯卡
Qwen3-4B~2.3GB8GB Mac ✅GTX 1060 以上
Qwen3-8B~4.6GB16GB Mac ✅RTX 3060 8GB
Qwen3-14B~8.3GB32GB Mac ✅RTX 3080 Ti / 4080
Qwen3-30B-A3B(MoE)~18GBM3 Max 36GB ✅RTX 4090 24GB
Qwen3-32B~19GBM3 Max 36GB(勉強)RTX 4090 24GB

最佳甜蜜點:Qwen3-30B-A3B MoE。 這個 MoE(混合專家)架構的模型只激活 3B 參數來處理每個 token,實際效率比同尺寸的 dense 模型好很多。HackerNews 用戶確認 RTX 4090 和 M3 Max 都能順暢運行。

Apple Silicon 用戶還有額外福利:透過 MLX 優化,HN 社群報告 Qwen3-Next-80B 在 M 系列晶片上可達 60-74 tokens/sec,DFlash 推測解碼甚至讓速度提升最高 4.13 倍。

白話結論: M2 MacBook Pro 16GB 跑 8B 模型日常使用完全夠用。想要更好的輸出品質,M3 Max 36GB 配 30B-A3B 是目前本地部署的最佳組合。PC 用戶有 RTX 4090 的話幾乎什麼都能跑。

三條免費試用路徑(2026 年 4 月現況)

你以為免費就是無限制?三條路各有不同的隱形牆。

路徑一:OpenRouter Playground(零門檻)

最快的方式。打開 OpenRouter 的 Qwen3.6-Plus 頁面,不需要建帳號就能直接在 Playground 試用。你用到的是目前最新的 Qwen3.6-Plus,1M token context window。

但有兩個要注意的事。第一,免費 tier 有流量限制(大約每分鐘 20 次、每天 200 次請求),超過會收到 429 錯誤。第二,根據 OpenRouter 頁面資訊,免費 tier 原定 4 月初終止,但截至本文撰寫時仍可使用。這個免費窗口隨時可能關閉,建議趁還有的時候先試。

路徑二:qwen.ai 官網 Playground(需帳號)

qwen.ai 的 Qwen Chat 網頁介面仍然免費使用,支援 Qwen3.5-Omni 的多模態功能(可以丟圖片、音頻進去)。如果你想試語音辨識或影片分析,這是最直接的入口。

不過,OAuth API 的免費額度已大幅縮減(從每天 1,000 次降到 100 次),預計 2026 年 4 月 15 日前後完全終止。網頁 Playground 不受影響,但如果你需要 API 接入自己的應用,免費時代基本結束了。

路徑三:Ollama 本地部署(完全免費、完全離線)

唯一真正「無限制」的路徑。安裝 Ollama 後,用一行指令就能下載模型開始用,沒有 rate limit、沒有帳號需求、資料完全不離開你的電腦。

代價是你需要足夠的硬體(參考上面的硬體需求表),而且初次下載模型需要時間(8B 模型約 4-5GB)。下一節會給你完整的部署步驟。

我的建議: 先用 OpenRouter Playground 花 5 分鐘感受一下 Qwen3.6-Plus 的能力。如果覺得合用,想長期免費使用就學 Ollama。

Ollama 本機部署 Qwen3:完整步驟與兩個你必須知道的已知 Bug

安裝步驟

根據 Qwen 官方 Ollama 文件,三步搞定:

# 1. 安裝 Ollama(到 ollama.ai 下載對應系統版本)

# 2. 下載模型(依你的硬體選擇尺寸)
ollama pull qwen3:8b          # 16GB Mac 或 8GB VRAM PC
ollama pull qwen3:14b         # 32GB Mac 或 12GB+ VRAM PC
ollama pull qwen3-30b-a3b     # M3 Max 36GB 或 RTX 4090

# 3. 啟動互動對話
ollama run qwen3:8b

啟動後你可以用 /think/no_think 標籤控制思考模式:

/think 請分析以下程式碼的效能瓶頸...
/no_think 請把這段英文翻譯成繁體中文

Bug 1:Qwen3.5 系列 Thinking Mode 無限迴圈

這是已確認的問題(GitHub Ollama #12917QwenLM #1817)。症狀是模型一直輸出 <think> 的思考內容,永遠不會生成最終回答,你只能手動中斷。

這個問題影響的是 Qwen3.5 系列,不是 Qwen3 原始版本。阿里巴巴已承認 hybrid thinking 的設計有問題,在後續版本把 Instruct 和 Thinking 模型分拆開來。

Bug 2:Qwen3.5 系列 Tool Calling 完全失效

另一個已確認的問題(GitHub Ollama #14493)。Qwen3.5-27B 在 Ollama 環境下的 tool calling 功能完全不可用,repetition penalties 參數也被靜默忽略。

如果你在用 LangChain、LlamaIndex 或任何 OpenAI-compatible 的 agentic workflow,Ollama + Qwen3.5 這個組合基本上會直接失敗。

規避方案

這兩個 bug 都有解:

  1. 用 Qwen3 原始版本ollama pull qwen3:8b),不要用 Qwen3.5 系列
  2. 改用 llama.cpp server 替代 Ollama(社群推薦 Bartowski 量化版)
  3. 直接用官方 API 或 OpenRouter,伺服器端沒有這些問題

現有的繁體中文 Qwen3 文章幾乎都完全迴避了這兩個 bug。如果你是開發者或 indie maker,這是你在選擇部署方式之前必須知道的資訊。

Thinking Mode 思考模式:什麼時候開,什麼時候不需要

Thinking Mode 讓模型把推理過程展示出來(chain-of-thought),有點像是讓 AI 把草稿紙上的計算過程給你看。

適合開啟的場景: 複雜邏輯推理、數學計算、多步驟問題分析、需要高精確度的任務。開啟後模型的回答通常更準確,幻覺也較少。

不需要開啟的場景: 快速翻譯、文字潤飾、簡單問答。因為思考模式會顯著增加回應時間(latency),對這些任務來說品質提升不明顯,等待時間卻長很多。

注意: 在 Ollama 環境中,enable_thinking: false 的設定可能無效,模型仍然會輸出思考過程。如果你需要穩定控制 Thinking Mode 的開關,用 Qwen Chat 網頁或 OpenRouter API 比較可靠。

Qwen3 vs Claude vs Gemma 4:繁體中文寫作,哪個最值得用?

先說結論:這不是一場「哪個最強」的比賽,而是工具組合策略的問題。

BenchLM.ai 的 2026 年中文 LLM 排名顯示:GLM-5 Reasoning(85 分)> GLM-5.1(84 分)> Qwen3.5-397B Reasoning(81 分)。Qwen3.5 穩居中文 LLM 前三,但整體而言,最強的中文模型和頂級閉源模型之間仍有約 9 分的差距。

從台灣使用者的角度,三個工具各有最適合的場景:

工具最強場景弱點成本
Qwen3繁中文字任務、中文內容生成幻覺較多、繁中略遜簡中免費(本地)/ API 極低成本
Claude英文寫作、複雜推理、高精確度任務中文不是主場、API 費用較高$3.00/1M input(Sonnet)
Gemma 4創意寫作、實驗性內容中文生態較弱免費(本地)

實際策略建議: 繁體中文的內容草稿用 Qwen3(免費或極低成本),英文技術文件和需要高準確度的任務用 Claude,創意寫作想嘗鮮可以試 Gemma 4。Qwen3 不是要取代 Claude,而是在中文任務上幫你省下大量 API 費用。

要強調的是,目前還沒有人做過繁體中文寫作品質的系統性第一手評測來直接比較這三個模型。上面的建議是基於各自的 benchmark 數據、社群回饋和使用場景分析,不是嚴格的 A/B 測試結論。

API 成本計算:繁中文案月費 $0.10 vs Agentic Coding 費用爆炸

Qwen3.6-Plus 的 API 定價是 $0.50/1M input tokens 和 $3.00/1M output tokens。

輕度使用的成本幾乎等於零。 假設你每天問 100 個問題,每個問題平均 500 tokens 輸入 + 1,000 tokens 輸出,月成本大約 $0.10 USD。對,你沒看錯,一個月一毛美金。

但 Agentic Coding 模式完全是另一回事。 V2EX 上有用戶分享真實案例:用 Qwen3 Coder 分析一個程式碼庫,一次 session 消耗 350 萬 tokens,欠費 23 元人民幣(約 $3.20 USD)。更誇張的案例是單次分析花了 400 多元人民幣。原因是模型會把倉庫裡所有文件都讀一遍,「連 csv 都不放過」,直接耗掉三分之二的 context window。

什麼時候值得付費?

  • 月使用量 < 500 次:免費方案(OpenRouter + Ollama)完全夠用
  • 月使用量 500-5,000 次:評估 Alibaba Cloud ModelStudio 訂閱方案
  • Agentic Coding 大量 token 消耗:務必自己算清楚,成本可能超過 Claude Pro 訂閱

Indie Maker 快捷方式: Qwen3.6-Plus API 相容 OpenAI 格式,如果你現在用的是 OpenAI SDK,只要把 base_url 換成 https://dashscope.aliyuncs.com/compatible-mode/v1,不需要改其他程式碼。

隱私與資料主權:在台灣使用阿里巴巴服務需要知道的事

這段不是要嚇你,但作為台灣使用者,有些事情你需要清楚知道再做決定。

使用 QwenLM Playground 或 Alibaba Cloud API 時,你的輸入內容會傳輸到阿里巴巴的伺服器。阿里巴巴是中國企業,適用中國的資料安全法。Product Hunt 社群也有人提出「訓練資料 opt-out 不透明」的疑慮,也就是說你不確定你的輸入是否會被用來訓練模型。

最簡單的解法:用 Ollama 本地部署。 Apache 2.0 授權允許你完全在本地運行模型,資料不會離開你的電腦。這就是開源模型的最大優勢。

實務建議:

  • 撰寫公開部落格文章、翻譯公開內容 → 用 API 沒問題
  • 處理個人隱私資料、商業機密、客戶資料 → 一律用 Ollama 本地部署
  • 如果你的公司有資料合規要求,使用前請確認最新的阿里巴巴隱私條款

結論:不是取代,是你的中文 AI 工具箱該加一把新工具

Qwen3 系列不會取代 Claude 或 ChatGPT 在你工作流中的位置。它的價值在於:繁體中文任務上,它提供了一個成本極低(甚至免費)的高品質選擇,讓你不用每次寫中文內容都燒 Claude 的 API 額度。

如果你只做一件事,現在就打開 OpenRouter Playground,花 5 分鐘試試 Qwen3.6-Plus 的繁體中文輸出。記得在 system prompt 加上「請使用正體中文回覆」。

如果你想走得更遠,學 Ollama 本地部署。完全免費、完全離線、沒有 rate limit,這篇文章已經給了你完整步驟。只要避開 Qwen3.5 系列在 Ollama 上的已知 bug,整體體驗其實相當順暢。

FAQ

Qwen3 是完全免費的開源模型嗎?Apache 2.0 授權可以商用嗎?

Qwen3 系列採用 Apache 2.0 授權,可以用於商業用途、修改和再分發,不需要付費。不過要注意的是:模型權重可以下載,但訓練資料並未公開。HackerNews 社群對此有「是否算真正開源」的討論。實際意涵是你可以用 Qwen3 建 SaaS 或商業產品,但無法知道模型是用什麼資料訓練的。相比之下,DeepSeek 的授權有更多限制性條款,Qwen3 的 Apache 2.0 被社群視為更友善的商業授權。

2026 年 4 月目前最好的免費 Qwen3 試用路徑是哪條?

截至 2026 年 4 月中旬,最快的方式是到 OpenRouter Playground 直接試用 Qwen3.6-Plus(免費 tier 有流量限制,可能隨時終止,請先確認最新狀態)。qwen.ai 官網的 Qwen Chat 網頁仍可免費使用,但 OAuth API 免費額度已於 4 月 15 日前後終止。如果你想完全離線、不限次數使用,Ollama 本地部署是最穩定的免費路徑,只要你的電腦有 8GB 以上記憶體就能跑最小的模型。

這篇文章對你有幫助嗎?