Qwen3 中国語AI完全ガイド:モデル選定、無料利用方法とOllamaの落とし穴(2026年)
オープンソースAIコミュニティは静かに方向転換していた。Qwen3はHackerNewsで869ポイントの最高エンゲージメントを記録し、LocalLLaMAコミュニティのデフォルトもLlamaからQwenに切り替わった。しかし中国語品質に焦点を当てた包括的なQwen3ガイドを検索しても、見つかるのは単一バージョンの断片的なプレスリリースか、実用的なアドバイスのないベンチマーク数値ばかりだ。
この記事では実用的なユーザー視点からQwen3の完全ガイドを提供する。Qwen3からQwen3.6-Plusまでのバージョンナビゲーション、中国語出力品質の正直な評価、3つの無料アクセスパスの実際の制限、そしてOllamaでローカルデプロイする際に必ず遭遇する2つの確認済みバグについて解説する。
TL;DR
- 中国語出力品質:デフォルトでは簡体字が混在する可能性あり。system promptに「正体字(繁体中国語)で回答してください」と追加すると品質が大幅改善するが、全体的には簡体字のパフォーマンスにやや劣る
- ゼロバリアの無料アクセス:OpenRouter PlaygroundでQwen3.6-Plusを即座に試用可能(レート制限あり、無料枠はいつでも終了の可能性)。完全オフラインならOllamaでローカルデプロイ
- Ollama + Qwen3.5の落とし穴:Thinking Modeの無限ループ(GitHub #12917)とTool Callingの失敗(GitHub #14493)は確認済みのバグ。あなたのPCの問題ではない。解決策:Qwen3オリジナルバージョンを使用するか、llama.cppに切り替える
- APIコスト:コンテンツ生成は月額約$0.10 USD。ただしAgentic Codingモードのトークン消費は、Claude契約を超える速さで膨らむ可能性あり
Qwen3には6つの主要バージョンがある。間違えると時間の無駄
まず明確にしておくべきこと:メディアが報じる「Qwen3」「Qwen3.5」「Qwen3.6-Plus」は同じものではない。2025年4月から2026年4月にかけて6つの主要バージョンがリリースされ、機能差が大きすぎて間違ったバージョンを選ぶと努力が無駄になる。
| バージョン | リリース日 | 主な特徴 | 最適な用途 |
|---|---|---|---|
| Qwen3 | 2025-04-29 | 8モデル(2 MoE + 6 dense)、119言語、Apache 2.0 | ローカルデプロイ入門(最も安定) |
| Qwen3-Max-Thinking | 2026-01-27 | 推論フラッグシップ、画像/動画生成 | 複雑なロジック、数学 |
| Qwen3.5 | 2026-02-17 | 397Bパラメータ、201言語、エージェント強化 | 大規模AIエージェントワークフロー |
| Qwen3.5-Omni | 2026-03-30 | マルチモーダル(テキスト+画像+音声+動画)、256Kコンテキスト | 音声認識、動画分析 |
| Qwen3.6-Plus | 2026-04-02 | 1Mトークンコンテキスト、SWE-bench 78.8% | Agenticコーディング、長文処理 |
選び方は? 初めての場合、日常的な中国語ライティングにはQwen3.5-9B(ローカル無料、安定性高)で十分。超長文やコーディングにはQwen3.6-PlusのAPIを使おう。音声認識や動画分析なら、Qwen3.5-OmniがGemini 3.1 Proの直接的な競合だ。
重要な注意点:Qwen3.5シリーズはOllamaで既知のバグがある(詳細は後述)。ローカルデプロイするなら、Qwen3のオリジナルバージョンのほうがむしろ安定している。
中国語出力品質の正直な評価:文字の正確性、ローカル用語、ハルシネーション
Qwen3の公式発表では、119言語サポートリストに「Traditional Chinese(繁体中国語)」が明記されている。良さそうに聞こえるが、実際には中国語、特に繁体字は「二級市民」として扱われている。
デフォルトの出力に簡体字が混在する。 特別な指示なしで質問すると、繁体字であるべき場所に簡体字のバリアントが現れることがある。これはバグではなく、訓練データの大部分が簡体中国語であることの結果だ。TMMLU+(台湾多言語言語理解)の学術ベンチマークでも確認されている。繁体字の全体的なパフォーマンスは簡体字にやや劣る。
修正方法はシンプルだが知っている必要がある。 system promptの冒頭に以下を追加する:
正体字(繁体中国語)で、台湾で一般的に使われる用語と文法で回答してください。
追加後、出力品質が顕著に改善する。台湾特有の用語は通常正しく処理されるが、一部の字体の違いは明示的な指定が必要。
ハルシネーションは実際の問題だ。 台湾のブロガーThe Walking Fishの実測では、物理シミュレーションテストが失敗し、FAQの要約で存在しないコンテンツが生成された。Twitterの開発者も直接警告している:「Qwenシリーズのハルシネーションはかなり深刻。主観的な説明を完全に信用してはいけない。」
ブログ記事の下書き、翻訳の初稿、ノートの整理など低リスクのタスクにはQwen3は十分使える。だが財務データ、法律文書、医療情報には、必ず人間のレビューが必要だ。
もう一つの制限:繁体字の画像生成にはまだ問題がある。「AIが繁体字を正しく生成できない昔からの問題」が依然として存在するとコミュニティが確認している。
MacBookやPC GPUでQwen3は動くか?ハードウェア要件の完全対照表
hardware-corner.netとwillitrunai.comの包括的なテストに基づく、Q4量子化バージョンのVRAM要件:
| モデル | 必要VRAM(Q4) | Mac統合メモリ | PC GPU |
|---|---|---|---|
| Qwen3-0.6B / 1.7B | < 2GB | M1 Air 8GB | 任意のディスクリートGPU |
| Qwen3-4B | ~2.3GB | 8GB Mac | GTX 1060以上 |
| Qwen3-8B | ~4.6GB | 16GB Mac | RTX 3060 8GB |
| Qwen3-14B | ~8.3GB | 32GB Mac | RTX 3080 Ti / 4080 |
| Qwen3-30B-A3B(MoE) | ~18GB | M3 Max 36GB | RTX 4090 24GB |
| Qwen3-32B | ~19GB | M3 Max 36GB(ギリギリ) | RTX 4090 24GB |
スイートスポット:Qwen3-30B-A3B MoE。 このMixture-of-Expertsモデルは各トークンに対して3Bパラメータのみを活性化し、同サイズのdenseモデルより遥かに効率的だ。HackerNewsユーザーはRTX 4090とM3 Maxの両方でスムーズに動作することを確認している。
Apple Siliconユーザーにはボーナスがある。MLX最適化により、コミュニティの報告ではQwen3-Next-80BがM系チップで60-74 tokens/secを達成し、DFlash投機的デコードで最大4.13倍の速度向上が得られる。
結論: M2 MacBook Pro 16GBで8Bモデルの日常利用は十分快適。より高い出力品質が必要なら、M3 Max 36GBに30B-A3Bが現時点で最良のローカルデプロイ構成。RTX 4090があるPCユーザーはほぼ何でも動かせる。
3つの無料利用パス(2026年4月現在の状況)
無料イコール無制限ではない。各パスにはそれぞれ見えない壁がある。
パス1:OpenRouter Playground(ゼロバリア)
最速の方法。OpenRouterのQwen3.6-Plusページを開き、アカウント作成なしでPlaygroundを直接利用できる。最新のQwen3.6-Plusで1Mトークンのコンテキストウィンドウにアクセス可能。
2つの注意点。第一に、無料枠にはレート制限がある(おおよそ毎分20リクエスト、1日200リクエスト)。超過すると429エラーが返る。第二に、無料枠は4月初旬に終了予定だったが、本記事執筆時点ではまだ利用可能。このウィンドウはいつでも閉じる可能性があるので、今のうちに試しておこう。
パス2:qwen.ai公式Playground(アカウント必要)
qwen.aiのQwen Chatウェブインターフェースはまだ無料で、Qwen3.5-Omniのマルチモーダル機能(画像、音声入力)をサポートしている。音声認識や動画分析を試したいなら、最も直接的な入り口だ。
ただし、OAuth APIの無料枠は大幅に削減され(1日1,000回から100回へ)、2026年4月15日前後の完全終了が予想されている。ウェブPlaygroundは影響を受けないが、自分のアプリケーションにAPIアクセスが必要なら、無料の時代は基本的に終わった。
パス3:Ollamaローカルデプロイ(完全無料、完全オフライン)
唯一の「無制限」パス。Ollamaをインストール後、コマンド1つでモデルをダウンロードしてすぐに使える。レート制限なし、アカウント不要、データはコンピュータから一切出ない。
代償として十分なハードウェアが必要(上のハードウェア要件表を参照)で、初回のモデルダウンロードには時間がかかる(8Bモデルで約4-5GB)。次のセクションで完全なデプロイ手順を提供する。
おすすめ: まずOpenRouter Playgroundで5分間Qwen3.6-Plusの能力を体験しよう。気に入って長期的に無料で使いたければ、Ollamaを学ぼう。
Ollamaローカルデプロイ:完全手順と知っておくべき2つのバグ
インストール手順
Qwen公式Ollamaドキュメントに基づき、3ステップで完了:
# 1. Ollamaインストール(ollama.aiからOS対応版をダウンロード)
# 2. モデルダウンロード(ハードウェアに応じてサイズを選択)
ollama pull qwen3:8b # 16GB Mac または 8GB VRAM PC
ollama pull qwen3:14b # 32GB Mac または 12GB+ VRAM PC
ollama pull qwen3-30b-a3b # M3 Max 36GB または RTX 4090
# 3. インタラクティブチャットを開始
ollama run qwen3:8b
起動後、/thinkと/no_thinkタグでThinking Modeを制御できる:
/think このコードのパフォーマンスボトルネックを分析して...
/no_think このテキストを中国語に翻訳して
バグ1:Qwen3.5シリーズのThinking Mode無限ループ
確認済みの問題(GitHub Ollama #12917、QwenLM #1817)。モデルが<think>のコンテンツを出力し続け、最終回答を生成しない。手動で中断するしかない。
これはQwen3.5シリーズのみに影響し、Qwen3のオリジナルバージョンには影響しない。Alibabaはhybrid thinkingの設計上の欠陥を認め、後続バージョンではInstructモデルとThinkingモデルを分離した。
バグ2:Qwen3.5シリーズのTool Callingが完全に動作しない
もう一つの確認済み問題(GitHub Ollama #14493)。Qwen3.5-27BのTool CallingはOllama環境で完全に機能せず、repetition penaltyパラメータも無視される。
LangChain、LlamaIndex、またはOpenAI互換のagenticワークフローを使用している場合、Ollama + Qwen3.5の組み合わせは単純に失敗する。
回避策
両方のバグに解決策がある:
- Qwen3オリジナルを使用(
ollama pull qwen3:8b)、Qwen3.5シリーズを避ける - Ollamaの代わりにllama.cpp serverに切り替え(コミュニティはBartowski量子化版を推奨)
- 公式APIまたはOpenRouterを使用 — サーバー側にはこれらの問題がない
既存のQwen3ガイドのほとんどがこれらのバグに一切触れていない。開発者やインディーメーカーなら、デプロイ方法を選ぶ前に知っておくべき重要な情報だ。
Thinking Mode:いつ有効にし、いつスキップするか
Thinking Modeはモデルの推論プロセスを可視化する(chain-of-thought)。AIに計算用紙の上の計算過程を見せてもらうようなものだ。
有効にすべき場面: 複雑な論理的推論、数学、多段階分析、高精度が求められるタスク。有効にすると回答はより正確になり、ハルシネーションも減少する。
スキップすべき場面: 簡単な翻訳、テキストの推敲、シンプルなQ&A。Thinking Modeは応答時間を大幅に増加させ、これらのタスクでは品質向上がほとんど感じられない。
注意: Ollama環境ではenable_thinking: falseの設定が機能しない場合がある。モデルは依然として思考プロセスを出力する。安定したThinking Modeの制御には、Qwen ChatウェブまたはOpenRouter APIがより信頼できる。
Qwen3 vs Claude vs Gemma 4:中国語ライティングに最適なのは?
結論から言うと、これは「どれが最強か」の競争ではなく、適切なツールの組み合わせ戦略の問題だ。
BenchLM.aiの2026年中国語LLMランキング:GLM-5 Reasoning(85点)> GLM-5.1(84点)> Qwen3.5-397B Reasoning(81点)。Qwen3.5は中国語LLMのトップ3に安定して位置しているが、最強の中国語モデルはトップのプロプライエタリモデルと約9ポイントの差がある。
実用的な観点から、各ツールに最適なユースケースがある:
| ツール | 最強の用途 | 弱点 | コスト |
|---|---|---|---|
| Qwen3 | 中国語コンテンツ生成 | ハルシネーションが多い、繁体字はやや劣る | 無料(ローカル)/ API極低コスト |
| Claude | 英語ライティング、複雑な推論、高精度タスク | 中国語は主戦場ではない、API費用が高い | $3.00/1M input(Sonnet) |
| Gemma 4 | クリエイティブライティング、実験的コンテンツ | 中国語エコシステムが弱い | 無料(ローカル) |
実用的な戦略: 中国語コンテンツの下書きにはQwen3(無料または最小コスト)、英語の技術文書と高精度タスクにはClaude、クリエイティブライティングの実験にはGemma 4。Qwen3はClaudeを置き換えるものではなく、中国語タスクでのAPIコストを大幅に削減するものだ。
なお、これら3つのモデルの繁体字ライティング品質を直接比較する体系的な第一手ベンチマークはまだ存在しない。上記の推奨はベンチマークデータ、コミュニティのフィードバック、ユースケース分析に基づいており、厳密なA/Bテストの結論ではない。
APIコスト計算:コンテンツ生成月額$0.10 vs Agenticコーディングのコスト爆発
Qwen3.6-PlusのAPI価格:$0.50/1M入力トークン、$3.00/1M出力トークン。
軽量利用のコストはほぼゼロ。 1日100回の質問で、各質問の平均が500入力 + 1,000出力トークンの場合、月額コストは約$0.10 USD。月10セントだ。
しかしAgentic Codingモードは全く別の話。 V2EXの実例:Qwen3 Coderでコードベースを分析した1セッションで350万トークンを消費し、23元人民幣(約$3.20 USD)の請求。より極端なケースでは1回の分析で400元以上。モデルがリポジトリ内の全ファイルを読み込むためだ。「CSVすら見逃さない」と報告されており、コンテキストウィンドウの3分の2を消費する。
いつ有料にすべきか:
- 月間利用500回未満:無料オプション(OpenRouter + Ollama)で十分
- 月間500-5,000回:Alibaba Cloud ModelStudioサブスクリプションを検討
- Agenticコーディングで大量トークン消費:慎重に計算を。コストがClaude Proサブスクリプションを超える可能性あり
インディーメーカー向けショートカット: Qwen3.6-Plus APIはOpenAI互換。現在OpenAI SDKを使用しているなら、base_urlをhttps://dashscope.aliyuncs.com/compatible-mode/v1に変更するだけで、他のコード変更は不要。
プライバシーとデータ主権:Alibabaサービス利用前に知るべきこと
この章は脅かすためではなく、ユーザーとして意思決定前に理解すべき事実を提供する。
QwenLM PlaygroundやAlibaba Cloud APIを使用する際、入力データはAlibabaのサーバーに送信される。Alibabaは中国企業であり、中国のデータセキュリティ法が適用される。Product Huntコミュニティでも「訓練データのオプトアウトが不透明」という懸念が挙げられている。入力が将来のモデル訓練に使われるかどうか確信が持てない。
最もシンプルな解決策:Ollamaローカルデプロイ。 Apache 2.0ライセンスにより、モデルを完全にローカルで実行でき、データがコンピュータから出ることはない。これがオープンソースモデルの最大の利点だ。
実務的なアドバイス:
- 公開ブログ記事の執筆、公開コンテンツの翻訳:API利用で問題なし
- 個人データ、企業秘密、顧客データの処理:必ずOllamaローカルデプロイを使用
- データコンプライアンス要件がある企業の場合、利用前にAlibabaの最新プライバシー規約を確認すること
結論:代替ではなく、中国語AIツールキットに加える新しいツール
Qwen3がワークフローにおけるClaudeやChatGPTの位置を置き換えることはない。その価値は、中国語タスクにおいて極めて低コスト(または無料)の高品質な選択肢を提供し、中国語コンテンツを書くたびにClaudeのAPIクレジットを消費する必要がなくなることにある。
一つだけ行動するなら、今すぐOpenRouter Playgroundを開いて、5分間Qwen3.6-Plusの中国語出力を試してみよう。system promptに「正体字で回答してください」を忘れずに。
さらに進みたいなら、Ollamaローカルデプロイを学ぼう。完全無料、完全オフライン、レート制限なし。この記事で完全な手順を提供した。Ollama上のQwen3.5の既知バグさえ避ければ、全体的な体験はかなりスムーズだ。
FAQ
Qwen3は完全無料のオープンソースモデルですか?Apache 2.0ライセンスで商用利用できますか?
Qwen3シリーズはApache 2.0ライセンスを採用しており、商用利用、改変、再配布が無料で可能です。ただし、モデルの重みはダウンロードできますが、訓練データは非公開です。HackerNewsコミュニティでは「真のオープンソースと言えるか」という議論があります。実際には、Qwen3でSaaSや商用製品を構築できますが、モデルの訓練に使われたデータを知ることはできません。DeepSeekのより制限的なライセンス条項と比較して、Qwen3のApache 2.0はコミュニティからよりビジネスフレンドリーと見なされています。
2026年4月現在、Qwen3を無料で試す最良の方法は?
最も手軽な方法はOpenRouter Playgroundで、Qwen3.6-Plusを直接試用できます(無料枠にはレート制限があり、いつでも終了する可能性があるため、最新状況を確認してください)。qwen.aiのQwen Chatウェブインターフェースはまだ無料で利用可能ですが、OAuth APIの無料枠は2026年4月15日前後に終了しました。無制限かつ完全オフラインで使いたい場合は、Ollamaのローカルデプロイが最も安定した無料パスです。8GB以上のメモリがあるコンピュータがあれば、最小モデルを実行できます。



