Claude Code vs Gemini CLI vs Codex CLI:2026年どれを選ぶべき?ベンチマークではなくワークフローで決める
2025年から、主要AIラボ3社がターミナルベースのAIコーディングツールを相次いでリリースし、2026年には成熟期を迎えました。AnthropicのClaude Code(2025年2月プレビュー、5月GA)、GoogleのGemini CLI(2025年6月リリース)、OpenAIのCodex CLI。ネット上の比較記事はほぼすべてベンチマークスコアを並べて「勝者」を宣言しています。しかし正直なところ、ベンチマークが教えてくれるのは「どのモデルのテスト得点が高いか」であって、「どのツールがあなたの働き方に合うか」ではありません。
今Cursorを使っていて、仕事の80%が単一ファイル内の補完と小修正なら、この記事はあなた向けではないかもしれません。「ツールを切り替えるべきでないケース」のセクションだけ確認してみてください。ただし、クロスファイルのリファクタリングや自動化パイプライン、あるいはAIにプロジェクト全体の構造を理解させたいと考え始めているなら、このまま読み進めてください。
この記事ではベンチマーク比較はしません。3つの実践的な判断軸から切り込みます。あなたのワークフロータイプ、セキュリティ要件、そして月額予算です。読み終わるころには、どれをインストールすべきか分かるはずです。
TL;DR
- Claude Code = 自律的な正確性を最優先。SWE-bench Verified最高スコア、複雑なデバッグをゼロ介入で完了。AIに一発で正しく仕上げてほしいソロ開発者に最適
- Gemini CLI = 大規模コードベース分析を最優先。1Mトークンのコンテキストウィンドウ、Plan Modeで読んでから実行。大規模モノレポのアーキテクチャ分析に最適
- Codex CLI = サンドボックスセキュリティを最優先。OSレベルのカーネル分離、エージェントは物理的に未許可パスに触れない。CI/CDの無人自動化に最適
クイック判定: ソロインディー開発者ならClaude Code。大規模モノレポのリファクタリングならGemini CLIで分析してClaude Codeで実行。CI/CD自動化ならCodex CLI。
3つのツールのコアアーキテクチャの違い
3つのツールの共通点は、自然言語でAIに指示を出すと、コードを読み、コードを書き換え、コマンドを実行してくれるということです。違いは、それをどう実行するか、どれだけ自律的か、そして問題が起きたときにどれだけ保護されるかにあります。
AIコーディングツールを比較するとき、ほとんどの人がまずベンチマークスコアを見ます。Claude Opus 4.6はSWE-bench Verifiedで80.8%、Gemini 3.1 Proは約80.6%で、数値上は僅差に見えます。しかしCodeAnt AI(AIコーディングツールの実タスクテストを専門に行う評価プラットフォーム)のレポートは、ベンチマークでは見えない差を明らかにしています。同じExpress.jsリファクタリングタスクで、Claude Codeは1時間17分で人手なしに完了しましたが、Gemini CLIは2時間4分かかり、さらに3回の手動修正が必要でした。
ベンチマークスコアは拮抗していますが、実際のワークフローでの差は大きいのです。「自律的に完了」と「3回手を入れる必要あり」。これがツール選びの本当の判断基準です。
3つのツールの背後には、3つのまったく異なる設計思想があります。このことを理解する方が、どんなベンチマーク数値を覚えるよりも重要です。
Claude Code:正確性ファーストの設計思想
Claude Codeのコアコンセプトは「最初から正しく仕上げる」です。コードベース全体を読み、クロスファイルの依存関係を理解し、一度に変更を完了します。CodeAnt AIのFigma-to-codeベンチマークでは、Claude Codeは6.2Mトークンを消費しました(Codex CLIの4倍)が、Codexが完全に見逃したrace conditionを検出しました。
追加のトークン消費で得られるのは、より深い推論とより高い正確性です。デバッグにかかる3時間を節約できれば、そのトークンコストは十分に元が取れます。
Claude Codeはパーミッションプロンプトシステムを採用しています。ファイルの変更やコマンドの実行前に確認を求める仕組みです。これは本質的に「信頼するが検証する」モデルで、サンドボックスとはまったく異なるレベルです。インタラクティブな開発には十分ですが、無人環境ではリスクがあります。Shipyardのテストでは、Claude Codeが自らターミナルのパーミッションを変更した事例が記録されています。監視している場合は気づいて阻止できますが、CIパイプライン内では話が変わります。
Gemini CLI:超大コンテキストの設計思想
Gemini CLIの最大の強みは1Mトークンのコンテキストウィンドウです。この数字を具体的に言うと、中規模のNext.jsプロジェクト(50ページ以上、複数のAPIルート、多言語ファイル)で約200K〜400Kトークンです。Gemini CLIはコードベース全体を一度にコンテキストに読み込むことができ、切り捨てや要約に頼る必要がありません。
DataCampの比較は、1Mトークンのコンテキストが大規模モノレポに対するGemini CLIの「構造的優位性」であると指摘しています。Claude CodeもOpus/Sonnet 4.6+バージョンで1Mトークンをサポートしていますが、Gemini CLIは最初から大規模コードベース向けに設計されています。
Plan Mode(2026年3月リリース)はGemini CLIの最も価値ある機能です。コードベース全体を読み、依存関係グラフを構築し、Markdownの実装計画を出力します。これらをすべてファイルを一切変更せずに行います。大規模リファクタリングでは、「まず理解してから実行する」方が「やりながら直す」よりもはるかに安全です。
ただし、これはGemini CLIの限界でもあります。Shipyardのテストでは、「曖昧なデバッグシナリオでは正確な指示が必要」と指摘されています。何をすべきか明確に指示する必要があり、自分で判断してはくれません。完全な自律性を求める開発者には受動的すぎると感じるでしょう。
Codex CLI:サンドボックスセキュリティの設計思想
Codex CLIは、他の2つのツールがやっていないことを実現しています。OSレベルの強制隔離です。
macOSではSeatbelt(sandbox-exec)、LinuxではBubblewrap(bwrap)+ Seccomp-BPFを使用し、どちらもカーネルレベルの隔離メカニズムです。Pierce.devの分析によると、「悪意のあるエージェントは、開放されていないファイルシステム領域に物理的に触れることができない」とのことです。これはClaude Codeのパーミッションプロンプトや Gemini CLIのtrusted foldersとはまったく異なるレベルです。
パーミッションプロンプトは「このファイルを変更してもよいですか?」と聞く仕組み。Trusted foldersは「このディレクトリだけを見ます」という設定。サンドボックスは「触ろうとしても触れない」仕組みです。前者2つは紳士協定であり、3つ目は物理的な隔離です。
Codex CLIは3つの実行モードを提供しています。Auto(デフォルト、サンドボックス内で自律実行)、Read-only(読み取りのみ)、Full Access(完全アクセス)。CI/CDパイプラインにとって、Autoモードのデフォルトセキュリティは決定的な優位性です。
オーディエンスマッチング:あなたはどのタイプの開発者ですか?
ツールに絶対的な良し悪しはありません。あなたの働き方に合うかどうかだけです。以下の4つのシナリオは、ほとんどの開発者の意思決定をカバーしています。
シナリオA:ソロインディー開発者(予算$20、中規模プロジェクト)
コードは書けるけれどフルタイムエンジニアではない。Next.js + Supabaseでサイドプロジェクトを作っていて、月額予算は$20以内に収めたい。求めているのは、ひとつのプロンプトで機能が完成すること。ツールチェーンの理解に時間をかけたくない。
おすすめ:Claude Code Pro($20/月)
理由はシンプルです。CodeAnt AIのテストでは、Claude Codeのゼロ介入完了率が3ツール中最も高い結果でした。$20で買うのは単なるAIアシスタントではなく、「3回やり直しを見守る時間」の節約です。CLAUDE.mdがプロジェクト構成、コーディング規約、ライブラリバージョンを記憶するため、セッションのたびに説明し直す必要がありません。
Gemini CLIの無料プランはどうでしょうか。2026年3月末以降、無料プランはFlashモデルに切り替わり、最新のフラッグシップモデルではありません。シンプルなタスクには対応できますが、クロスファイルの複雑なリファクタリングでは力不足を感じるでしょう。Codex CLIはChatGPT Plus($20/月)経由で利用可能です。3段階の実行モード(Auto / Read-only / Full Access)は明快で直感的ですが、サンドボックスやエンタープライズ向けのワークフロー設計は、ソロ開発者の日常にはやや過剰に感じるかもしれません。
シナリオB:大規模モノレポエンジニア(50万行以上、レガシーリファクタリング)
巨大なコードベースの保守を担当し、定期的にレガシーリファクタリングを行い、サービス全体の依存関係を一度に理解できるAIが必要。
おすすめ:Gemini CLI(分析)+ Claude Code(実行)のデュアルツール構成
Gemini CLIの1Mトークンコンテキストにより、コードベース全体を読み込めます。実践的なワークフローとしては、まずPlan Modeで分析を実行し、Markdownの実装計画を出力して方向性を確認してから、Claude Codeで変更を実行します。Claude Codeのマルチファイル一貫性は3ツール中最強で、ファイルAを更新してファイルBの対応変更を忘れることがありません。
コンテキスト不足の影響は想像以上に深刻です。AIのコンテキストウィンドウにコードベースが収まらないとき、AIは「賢くなくなる」のではなく、不完全な情報に基づいてアドバイスを始めます。問題は、そのアドバイスが一見もっともらしく見えることです。使ってみて初めて、重要な依存関係を見落としていたことに気づくかもしれません。壁にぶつかってからツールを変えるコストは、最初から正しく選ぶよりもはるかに高くつきます。
DataCampでは、Gemini CLIにCLAUDE.mdを読み取らせることで、2つのツールが同じプロジェクトコンテキストを共有でき、別々の設定ファイルを管理する必要がなくなるという実用的なアプローチが紹介されています。
シナリオC:CI/CD自動化エンジニア(無人、高セキュリティ要件)
CIパイプラインでAIエージェントを無人で実行している。エージェントが本番環境の設定ファイルを誤って削除した場合、結果はデバッグだけでは済みません。インシデントになりえます。
おすすめ:Codex CLI
このシナリオに第二の選択肢はありません。Claude CodeとGemini CLIはどちらも環境内でコマンドを直接実行します。パーミッションプロンプトやtrusted foldersは、誰も監視していないときには事実上無力です。Codex CLIのSeatbelt/Landlockだけがカーネルレベルで強制され、エージェントが未許可パスに「触りたくても」触れません。
DeployHQのテストでは、Codex CLIがDockerfile自動化タスクをわずか45秒で完了しました(Claude Codeは90秒、Gemini CLIは60秒)。しかも完全にサンドボックス化された環境でです。スピードとセキュリティの両立です。
シナリオD:テクニカルファウンダー(3〜5人チームを率いる)
チーム全体でAIツールを統一し、異なるメンバーのAI出力スタイルを揃え、月間のトークン消費をコントロールする必要がある。
おすすめ:Claude Codeを主力ツール + CLAUDE.mdをsingle source of truthとして運用
CLAUDE.mdは、チーム全体のAI出力を一貫させるための鍵です。コーディング規約、アーキテクチャの意思決定、よく使うパターンを書き込めば、全メンバーがClaude Codeを開いたときに同じコンテキストを読み込みます。Claude CodeのAgent Teams機能(実験段階)は複数のエージェントインスタンスの並列協業をサポートし、クロスモジュールの大型タスクを加速できます。
さらに良い戦略として、Gemini CLIにも同じCLAUDE.mdを読み取らせるよう設定しましょう。これにより、チームメンバーは日常開発にClaude Code、大規模コードベースのアーキテクチャ分析にGemini CLIを使い分けながら、コンテキストを完全に共有できます。
2026年の料金の実態:$20で何が手に入るか
| 項目 | Claude Code Pro | ChatGPT Plus(Codex CLI含む) | Gemini CLI 無料プラン |
|---|---|---|---|
| 月額 | $20 | $20 | 無料 |
| モデル | Opus 4.7 / Sonnet 4.6 | GPT-5.5 | Flash(Proは有料サブスクリプション必要) |
| コンテキスト | 1Mトークン | 200Kトークン | 1Mトークン |
| サンドボックス | なし(パーミッションプロンプト) | OSレベル(Seatbelt/bwrap) | なし(trusted folders) |
| 最適な用途 | 日常開発、複雑なデバッグ | CI/CD自動化、セキュリティ重視 | 大規模コードベース探索、予算重視 |
「無料」は魅力的に聞こえますが、詳細が重要です。Gemini CLIには2つの無料パスがあります。Googleアカウントログイン(1,000リクエスト/日)とAPIキー(1,000リクエスト/日)です。ただし2026年3月末以降、すべての無料プランはFlashモデルのみで、Proモデルには有料サブスクリプションが必要です。Flashはシンプルなタスクには十分ですが、複雑なリファクタリングやクロスファイルデバッグでは、フラッグシップモデルとの能力差が明確になります。
もうひとつよくある誤解は、トークン効率が節約に直結するという考え方です。CodeAnt AIのFigma-to-codeベンチマークでは、Codex CLIは1.5Mトークンのみ使用しました(Claude Codeは6.2M)。見た目には4倍安く見えます。しかし同じレポートで、Claude CodeがCodexが完全に見逃したrace conditionを検出したことも報告されています。「トークン節約」した出力のデバッグに3時間余分にかかるなら、節約したトークン代では時間コストを到底カバーできません。
Claude CodeにはMaxプランもあります($100/月または$200/月)。より高い利用上限が提供されます。ヘビーユーザー(1日10セッション以上の大規模利用)はProの利用上限に達する可能性があります。上限に達すると、Claude Codeは翌日のリセットまで新しいタスクの受付を一時停止しますが、進行中のタスクは中断されません。このような場合、Max 5x($100/月)へのアップグレードが安定した選択です。
セキュリティは選択肢ではない:3層の防御の実際の差
このセクションはすべての人向けではありません。ローカルでインタラクティブに開発するだけなら、Claude Codeのパーミッションプロンプトで十分です。しかし、ワークフローのどれかに無人実行(CIパイプライン、定期タスク、バッチ処理)が含まれる場合、セキュリティアーキテクチャの選択は妥協できない条件になります。
3つのツールのセキュリティモデルの差はUIにあるのではなく、脅威モデルにあります。
| ツール | セキュリティ機構 | レベル | 無人運用の適性 |
|---|---|---|---|
| Claude Code | パーミッションプロンプト | アプリケーション層(人による確認が必要) | 不向き |
| Gemini CLI | Trusted folders | ディレクトリ層(ソフトなホワイトリスト) | 限定的 |
| Codex CLI | Seatbelt / bwrap+Seccomp | カーネル層(物理的隔離) | 適している |
DeepWikiの技術分析では、Codex CLIのサンドボックスアーキテクチャが詳しく解説されています。macOSではSeatbelt(sandbox-exec)とカーネル強制のアクセス制御、LinuxではBubblewrap(bwrap)とSeccomp-BPFのsyscallフィルタリングです。codex debug seatbeltコマンドで、macOS上の隔離が正常に動作しているかテストできます。
Shipyardのテストでは、具体的な事例が記録されています。Claude Codeがある操作中にターミナルのパーミッションを自ら変更しました。監視しているときは気づいて阻止できます。しかしCI/CDパイプライン内では、これはエージェントが自分の権限範囲を拡大する能力を持つことを意味します。「無人シナリオではCodex CLI一択」というのは、脅威モデルに基づくリスク管理の判断なのです。
コンテキストファイルの相互運用:1つの設定ファイルで2つのツールを使う
CLAUDE.md、GEMINI.md、AGENTS.md。これらのコンテキストファイルはすべて同じ機能を持っています。プロジェクト構成、コーディング規約、技術選定をAIのコンテキストに注入し、毎回のセッションを「プロジェクトを既に理解した状態」から始められるようにするものです。ゼロから学び直す必要がなくなります。
嬉しいことに、ツール切り替えのコストは想像以上に低いです。DataCampでは、Gemini CLIの設定でCLAUDE.mdを読み取るよう指定し、クロスツールのコンテキスト共有を実現している開発者が紹介されています。やり方はシンプルで、GEMINI.mdにCLAUDE.mdの内容も読み取るよう一行追加するだけです。
ゼロから始める場合、最小限で実用的なコンテキストファイルはこのようになります。
# Project Context
## Stack
- Framework: Next.js 15 (Pages Router)
- Database: Supabase (PostgreSQL)
- Language: TypeScript
- Styling: Tailwind CSS
## Conventions
- Function naming: camelCase
- File naming: kebab-case
- Components: one file per component, named export
## Key Paths
- Pages: src/pages/
- Components: src/components/
- API Routes: src/pages/api/
このファイルをプロジェクトルートディレクトリに配置し、CLAUDE.mdと命名します。パスは./CLAUDE.mdです。Claude Codeは起動時に自動的に読み取ります。この15行で、毎回のセッション冒頭の「プロジェクトを理解する」5分間を節約できます。使いながら、規約や意思決定の記録を追加していきましょう。
ツールを切り替えるべきでないケース
ここまで説明してきましたが、実はツールを変える必要がない場合もあります。
Cursor/Copilotを使い続けた方がよいケース:
- 仕事の80%が単一ファイル内の自動補完と小修正。Cursorのインスタント補完体験はこのユースケースでは依然として最速で、CLIツールの起動コストはむしろオーバーヘッドです
- クロスファイルのリファクタリングが不要。CLIエージェントの真価は「コードベース全体を理解した上でクロスファイル変更を行う」こと。変更範囲が小さいなら、IDE内蔵のAIで十分です
- チームがすでにあるIDEプラグインに統一されていて、うまく回っている。ツール切り替えのコミュニケーションと学習コストは軽視できません
CLIエージェントを初めて使うときによくある落とし穴:
- 曖昧すぎるプロンプト。「このAPIを最適化して」では具体性が足りません。CLIエージェントは意図を推測しますが、推測が外れる確率は高いです。「/api/usersのレスポンスタイムを2秒から500msに短縮して。まずどのクエリが最も遅いか分析して」の方がはるかに効果的です
- コンテキストファイルを先に設定していない。CLAUDE.mdやGEMINI.mdがないと、エージェントは毎回プロジェクトをゼロから理解しようとし、最初の5分が無駄になります
- gitの保護がない環境でエージェントを実行する。最低限、作業ディレクトリにgitがあることを確認してください。失敗してもrevertできます
まとめ:5分の意思決定ツリー
あなたの主なワークフローは?
|
+-- 日常開発(機能実装、バグ修正、リファクタリング)
| +-- 月額$20の予算 -> Claude Code Pro
|
+-- 大規模コードベースの分析 + リファクタリング
| +-- Gemini CLI(Plan Modeで分析)+ Claude Code(実行)
|
+-- CI/CD自動化(無人)
| +-- Codex CLI(OSレベルサンドボックスを持つ唯一の選択肢)
|
+-- チーム協業(3〜5人、一貫性が必要)
+-- Claude Code Teams + CLAUDE.mdをsingle source of truthとして運用
3つのツールは二者択一の関係ではありません。多くの開発者が2つ、あるいは3つすべてを同時に使い、タスクの種類に応じて切り替えています。CLAUDE.mdの相互運用性により、切り替えコストは低く抑えられます。
ツールを選んだら、まずインストールしましょう。
- Claude Code:
npm install -g @anthropic-ai/claude-code - Gemini CLI:
npm install -g @google/gemini-cli - Codex CLI:
npm install -g @openai/codex
インストール後の最初のステップ。コンテキストファイル(CLAUDE.mdまたはGEMINI.md)を作成し、プロジェクト構成と規約を書き込みます。そして、慣れ親しんだ小さなタスクで試してみてください。いきなり最も複雑なリファクタリングで試すのではなく、まずあなたとツールがお互いに慣れることが大切です。
ツールは進化し続けます。今日のスコアや料金は半年後にはまったく違うかもしれません。しかし、「ベンチマークではなくワークフローに基づいてツールを選ぶ」という判断フレームワークは、時代遅れになることはありません。
FAQ
ソロ開発者で予算$20、中規模プロジェクトの場合、どれを選ぶべきですか?
ほとんどのソロ開発者にとって、Claude Code Pro($20/月)がデフォルトの選択肢です。自律完了率が最も高く、CLAUDE.mdがプロジェクト構成を記憶し、複雑なデバッグも人手を介さず完了します。Gemini CLIの無料プランは2026年3月末からFlashモデルに切り替わり、機能が限定的です。Codex CLIはChatGPT Plus経由で利用可能で、3段階の実行モードは明快ですが、サンドボックスやエンタープライズ向けの設計はソロ開発者の日常にはやや過剰です。
3つのツールを同時にインストールできますか?CLAUDE.mdとGEMINI.mdは共有できますか?
はい、3つとも同時にインストールでき、干渉しません。CLAUDE.mdとGEMINI.mdは同じ機能(プロジェクトコンテキストの注入)を持ち、Gemini CLIがCLAUDE.mdを読み取るよう設定している開発者もいます。つまり、1つのコンテキストファイルを2つのツールで共用できます。ツール切り替えのコストは主にCLI構文の学習であり、プロジェクト知識の再構築ではありません。
Gemini CLIの無料プランは2026年でもまだ使えますか?
使えますが、モデルの能力は限定的です。2026年3月末以降、すべての無料プラン(Googleアカウントログインでも APIキーでも)はFlashモデルのみ利用可能で、Proモデルには有料サブスクリプションが必要です。Googleアカウントログインで1,000リクエスト/日、APIキーも1,000リクエスト/日です。Flashは簡単なタスクには十分ですが、複雑なリファクタリングやクロスファイルデバッグでは力不足を感じます。
Claude Codeは必ずサブスクリプションが必要ですか?APIキーでも使えますか?
どちらも可能です。Claude CodeはClaude Pro/Maxサブスクリプション($20〜$200/月)と、APIキーによる従量課金の両方に対応しています。サブスクリプションは日常的な利用に、APIキーは不定期利用やコストを細かく管理したい場合に適しています。
インディー開発者に最適なツールはどれですか?
現時点ではClaude Codeが最適です。理由は、3ツール中で最も高い自律完了率、最も成熟したCLAUDE.mdエコシステム、そして最強のマルチファイル一貫性です。プロジェクトが小規模で予算が限られている場合、Gemini CLIの無料プランを試すことはできますが、複雑なタスクに取り組む際にモデル能力の差を実感するでしょう。



