GPT-5.4 mini/nano Subagentアーキテクチャ実践ガイド:フラッグシップ・mini・nanoにどのタスクを割り当てるか
月末のOpenAI請求書を見て、費用の大半がコード検索・文書分類・構造化データ抽出といった繰り返しのサブタスクから来ていると気づいたことはないでしょうか。私たちも自社のAI agentシステムで同じ問題に直面しました。そして気づいたのは、問題は「mini/nanoで十分か」ではなく、「どのタスクにフラッグシップモデルが本当に必要なのかを、そもそも考えてこなかった」ということです。
この記事ではPlanner-Executor-Reviewerフレームワークを使って、そのまま使えるタスク割り当て決定表を提示します。私たちがコンテンツパイプラインのサブタスクをminiで実際に一つひとつ検証した経験に基づく、リアルな結果と推奨事項をお届けします。
TL;DR
- GPT-5.4 mini/nanoは安価版フラッグシップではない——OpenAIはマルチモデルagentアーキテクチャにおける特定の役割として明確に設計しています
- Planner-Executor-Reviewer三層アーキテクチャ:フラッグシップが計画立案、miniが実行、nanoが分類を担当し、APIコストを約70%削減できます
- codingベンチマークではminiはフラッグシップとの差はわずか3%(OpenAI自称)ですが、128K+contextタスクでは精度が79.3%から33.6%まで低下します(Simon Willisonの個人検証)
- nanoのハルシネーション率3.1%はgrounded summarizationテストでは一部のフラッグシップモデルより低い値です(Vectara HHEM-2.3独立テスト)が、これは構造化抽出に限った指標であり、汎用的な精度指標ではありません
- 最も現実的な戦略:「全部nanoに置き換える」ではなく、「新たに追加する繰り返しサブタスクにmini/nanoを使い、既存のワークフローはそのままにする」です
GPT-5.4 mini/nanoは「安価版フラッグシップ」ではない:異なる役割のために設計されています
mini/nanoを見た多くの人の第一印象は「安いけど機能を落としたGPT-5.4」です。しかしOpenAIの公式リリース文書を読むと、位置づけはまったく異なります。
OpenAIは2026年3月17日にGPT-5.4 miniとnanoをリリースした際、それぞれの役割を明確に定義しました。nanoは「classification, data extraction, ranking, and coding subagents for simpler supporting tasks」向け、miniは「systems that combine models of different sizes, where GPT-5.4 handles planning while mini subagents handle narrower subtasks in parallel」向けとされています。The New Stackの記事タイトルはそのことをストレートに表現しています:「GPT-5.4 mini and nano are built for the subagent era」。
ここに一つの反直感的な事実があります。nanoはVectara HHEM-2.3のgrounded summarizationベンチマークでハルシネーション率わずか3.1%を記録しており、GPT-5.4-proよりも低い値です。その理由は、nanoが保守的な回答をするよう訓練されているからです。確信が持てない場合は、それらしく見える答えを無理に生成するのではなく、生成を控えます。
重要:この3.1%のハルシネーション率はVectaraのgrounded summarizationテスト(usewire.io報告)によるものであり、「モデルが原文に忠実であるか」を測定する指標です。汎用的な精度指標ではありません。オープンエンドな質問応答や複雑な推論タスクでは、nanoの出力品質はフラッグシップモデルに明らかに劣ります。これがnanoが分類と抽出に適していて、計画立案や判断には向いていない理由です。
正しい問いは「mini/nanoはGPT-5.4よりどれだけ劣るか」ではなく、「自分のagentシステムの中で、nanoの強み(構造化・短context・高頻度繰り返し)にぴったり合うサブタスクはどれか」です。
Planner-Executor-Reviewer三層アーキテクチャ:70%以上のコスト削減を実現する設計思想
mini/nanoの役割を理解したら、次の問いは「具体的にどう使うか」です。答えはPlanner-Executor-Reviewer三層アーキテクチャです。これは私たちが考案したフレームワークではなく、OpenAIがmini/nanoのリリース時に実際に説明した使用パターンです。
アーキテクチャの論理はシンプルです:
Planner(フラッグシップモデル:GPT-5.4 / Claude Opus)
→ タスク要件を分析し、計画を立て、最終判断を行う
→ 複雑な推論、全体的な理解が必要な意思決定を処理する
Executor(GPT-5.4 mini)
→ Plannerが割り当てたサブタスクを実行:コード検索、文書処理、複数タスクの並列実行
→ 速度とコストパフォーマンスが求められる実行層に適している
Reviewer / Classifier(GPT-5.4 nano)
→ 高速な分類、データ抽出、構造化出力
→ 大量の繰り返し品質検証ステップに適している
The Neuron Dailyは的確な比喩を使っています:フラッグシップモデルはシニアマネージャー、mini/nanoは繰り返しタスクをこなすインターンです。シニアマネージャーに500件のデータ分類をさせないのと同様に、インターンに戦略立案はさせません。
私たちがコンテンツパイプラインで実際にテストした結果、classificationとdata extractionのステップをフラッグシップモデルからmini/nanoに切り替えたところ、それらのサブタスクのAPIコストが約70%削減されました。構造化タスクにおける出力品質はほとんど変わりませんでした。重要なのはタスク量と単価の掛け算効果です——agentシステム内のAPI呼び出しの70〜80%は繰り返しサブタスクが占めており、そこが本当のコストの発生源です。
Gartnerの予測(これは予測であり、実現済みのデータではないことに注意)によると、2026年Q4には企業のAI導入の約60%がマルチモデルアーキテクチャを採用するとされています。この数字の正確性はともかく、背後にある論理はシンプルです:一つのモデルで何もかも処理するのは、一本の包丁で全食材を切るようなもの——できないことはないが、賢いやり方ではありません。
タスク割り当て決定表:1枚の表でモデルを決める
これがこの記事の最も重要な部分です。OpenAIの公式ドキュメントと私たちの実際のテストに基づき、各タスク種別の推奨モデルを示します。
| タスク種別 | 推奨モデル | 理由 |
|---|---|---|
| 戦略立案・最終判断 | フラッグシップ(GPT-5.4 / Opus) | 複雑な推論が必要、エラーコストが高い |
| コード検索・文書処理(<100K tokens) | mini | codingの差はわずか3%(OpenAI自称)、コストパフォーマンス最高 |
| 並列サブタスクの一括実行 | mini | 速度2倍、コスト約70%削減 |
| 大量文書の分類・タグ付け | nano | 低ハルシネーション率が構造化出力に適している |
| データ抽出(<50K tokens) | nano | 大量繰り返し時のコストが最低 |
| ランキング・フィルタリング | nano | 公式が明確に設計した用途 |
| 複雑なマルチステップ推論 | フラッグシップ | FrontierMath:mini 9.6% vs GPT-5.4 26.3% |
| 長文書分析(>100K tokens) | フラッグシップ | miniは128K+で精度が大幅に低下(次節で詳述) |
| 創作・細かな判断 | フラッグシップ | mini/nanoは大量のコンテキスト理解が必要なタスクに不向き |
既存のagentシステムをすべてフラッグシップモデルで構築している場合、何も書き直す必要はありません。モデルの切り替えはパラメーター一つを変えるだけです:model="gpt-5.4" を model="gpt-5.4-mini" に変えればいい。APIフォーマット、function calling、system promptの仕様はすべて同じです。
agentのタスクが主に「長い文章を渡して構造化情報を抽出する」ものであれば:inputが50K tokens以内ならnanoで十分対応できます。50K〜100KならminiがよりL安全です。100Kを超えたらフラッグシップモデルに任せましょう。
長contextの落とし穴:128K+トークンのタスクにmini/nanoは使わないでください
これはmini/nanoが最も誤用されやすいシナリオであり、最も多くの人がはまる落とし穴です。
GPT-5.4 miniは400K context windowを持つと表示されています。しかし「400Kを詰め込める」ことと「400Kを効果的に処理できる」ことは別物です。Simon Willisonの個人検証には重要なデータが記録されています:miniはMRCR v2(長文理解能力を測定するベンチマーク)の128K〜256K contextの範囲で、精度がGPT-5.4の79.3%からわずか33.6%に低下しました。
重要:この低下データはSimon Willisonの個人テストによるものであり、OpenAI公式が発表したベンチマークではありません。しかし実務経験と一致しています:有効contextは表示上限の60〜70%であることが多いです。
これは何を意味するでしょうか?
- 完全なコードベース(通常100K tokens超)をminiに渡して分析させる → 結果は非常に悪くなります
- 大規模RAGパイプラインで文書全体をminiに詰め込んで要約させる → 内容欠落リスクが高くなります
- 長い会話履歴が128K+に積み上がる → 回答品質が明らかに低下し始めます
解決策は「miniを使わない」ことではなく、正しい役割分担です:
- チャンキング戦略:長文書を<30K tokensのブロックに分割し、nanoで分割処理、最後にフラッグシップモデルで統合します
- スマートルーティング:agentシステムがinputの長さを判定し、>100Kのタスクを自動的にフラッグシップモデルにルーティングします
- 階層型処理:nanoが最初に分類(「この文書はどのトピックに関連しているか?」)を行い、関連ブロックをminiに渡して詳細処理させます
実コスト計算:リトライコストを含めた正直な数字
まず各モデルの公式料金(2026年4月確認)を見てみましょう:
| モデル | Input / 1M tokens | Output / 1M tokens | GPT-5.4比 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 基準 |
| GPT-5.4 mini | $0.75 | $4.50 | 約70%安 |
| GPT-5.4 nano | $0.20 | $1.25 | 約92%安 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | GPT-5.4よりやや高め |
注意:nanoはAPI専用で、ChatGPTのインターフェースでは利用できません。miniはChatGPT Free tierでも利用可能です。
3つのリアルなシナリオを見てみましょう:
シナリオ1:大量画像の説明文生成 Simon Willisonがnanoで76,000枚の画像の説明文生成を処理した総コストは$52でした。同じタスクをGPT-5.4で行うと約$650になります。
シナリオ2:coding agent(4K input + 2K output/回)
- GPT-5.4:1回あたり約$0.04($2.50 × 4K/1M + $15.00 × 2K/1M)
- Mini:1回あたり約$0.012($0.75 × 4K/1M + $4.50 × 2K/1M)
- 1日500回実行する場合(中程度の使用量のagent)、月額差は約$420
シナリオ3:1日100会話の小規模クリエイター NanoはGPT-5.4と比べて月に約$30〜50の節約になります。金額は小さいですが、複数の小ツールを動かしている場合、合算すると実感できる差になります。
リトライコストの正直な修正:上記の計算は理想的な状況です。実際の使用では、nanoはエッジケース(やや複雑な分類など)で10〜15%のリトライ率が発生します。リトライを考慮すると、実際の節約は2割減——理想の70%以上から実際の55〜60%まで下がります。それでもminiのリトライコストは、フラッグシップモデルが一発で成功する場合のコストよりはるかに低いままです。
組み合わせ戦略:なぜ多くの開発者は「置き換え」でなく「追加」を選ぶのか
現在のagentシステムをすべてClaude Sonnet 4.6やGPT-5.4で構築している場合、全部miniに切り替えるべきでしょうか?
短い答え:やめましょう。
findskill.aiの開発者調査によると、多くの人のアプローチは置き換えではなく「追加」です——既存システムの中で、新たに追加する繰り返しサブタスクをmini/nanoに割り当て、既存のワークフローはそのまま維持します。理由は3つあります:
- タスクごとに異なる強みがある:Claude Sonnetは複雑な推論と長文ライティングで依然として優位性があります。「全部miniに置き換える」ことはその強みを手放すことになります
- 移行コストが過小評価されている:promptの再調整、システムアーキテクチャの書き直し、品質差のテスト——これらの時間コストは短期間で節約できるAPI費用を上回ることがほとんどです
- ベンダーロックインの回避:システム全体を一つのモデルに依存すると、そのモデルが値上げまたは性能低下した際に逃げ場がありません。組み合わせることでシステムの柔軟性が上がります
Claude SDKとOpenAI SDKの両方を管理する場合、デバッグの複雑さが増すことも確かです。私たちの推奨は、まず一つの新しいagentサブタスクでmini/nanoをテストし、品質が要件を満たすことを確認してから拡張すること——システム全体を一度に移行しないことです。
mini/nanoをそのまま使い始めるのに最も適したシナリオ:
- 新しいclassification agent(文書分類、タグ生成)
- 新しいdata extraction pipeline(非構造化文書から構造化データを抽出)
- 品質検証ステップ(出力フォーマットが正しいかを確認)
各AI APIの料金と適用シナリオをより詳しく比較したい場合は、AI APIコスト比較ガイドもご参照ください。
OpenAI Agents SDK実装:modelパラメーター1行を変えるだけで切り替えられます
技術的な実装は非常にシンプルです。miniとnanoはGPT-5.4とまったく同じAPIフォーマットを使用しており、切り替えはパラメーター一つを変えるだけです。
以下はOpenAI Agents SDKでPlanner-Executor-Reviewerアーキテクチャを構築するサンプルコードです:
from agents import Agent, Runner
# Planner(フラッグシップモデル — 全体計画を担当)
planner = Agent(
name="Planner",
model="gpt-5.4",
instructions="分析使用者的任務需求,拆解成具體子任務,分配給對應的 Executor 或 Reviewer。"
)
# Executor(mini — 具体的なサブタスクの実行を担当)
executor = Agent(
name="Executor",
model="gpt-5.4-mini", # ここだけ変える
instructions="根據 Planner 的指示,執行搜尋、文件處理或程式碼生成等具體任務。"
)
# Reviewer(nano — 分類と検証を担当)
reviewer = Agent(
name="Reviewer",
model="gpt-5.4-nano", # ここだけ変える
instructions="對 Executor 的輸出進行格式驗證、分類標記和品質篩選。"
)
注意:上記のコードはOpenAI Agents SDKのAgent構築方式に基づいたサンプル用法です。
modelパラメーターはモデル名の文字列を直接受け取ります。日付なしのモデルID(gpt-5.4-mini-2026-03-17ではなくgpt-5.4-mini)を使用することで、OpenAIのバージョン更新に自動的に追従でき、特定のsnapshotへのロックインを避けられます。
プログラミングをしない方は、miniをChatGPT Free tierで直接利用できます。nanoはAPI専用ですが、エンジニアでない方でもn8nのHTTP Requestノード、MakeやZapierのOpenAI連携から呼び出すことができます——これらのno-codeツールはいずれもmodelパラメーターの指定に対応しています。
Azure AI Foundryもminiとnanoをすでに統合しており、エンタープライズユーザーは同じAzure環境内で使用でき、追加のAPI設定は不要です。
利用制限とリスク開示
正直に言うと、mini/nanoは万能ではありません。導入前に知っておくべき制限事項を挙げます:
nanoのアクセス制限:nanoはAPI経由でのみ利用可能で、ChatGPTのFree/Plus/Proインターフェースでは提供されていません。チームに非エンジニアがいてnanoを使う必要がある場合、API wrapperまたはno-codeツール(n8n、Makeなど)を経由する必要があります。
ハルシネーション率の適用範囲:前述の3.1%ハルシネーション率(Vectara HHEM-2.3)はgrounded summarizationタスクに限定されます。オープンエンドな質問応答、複雑な推論、創造的なシナリオでは、nanoの出力品質はフラッグシップモデルに明らかに劣ります。「3.1%」という数字を見てnanoが全タスクで信頼できると判断しないでください。
複雑な推論における明確な差:FrontierMathテストでは、miniのスコアは9.6%、GPT-5.4は26.3%です。差は約3倍に達します。マルチステップの推論、数学的計算、全体的な理解が必要なタスクはフラッグシップモデルに任せましょう。
バージョン更新リスク:OpenAIは平均3〜6ヶ月ごとに新バージョンをリリースしています(GPT-5.0→5.1→5.2→5.4)。APIフォーマットは現在互換性がありますが、無期限のメンテナンスは保証されていません。OpenAIのdeprecation通知を定期的に確認し、agentシステム内に「モデル交換可能」な抽象レイヤーを設計することを推奨します——そうすればモデルを変える際に設定ファイルを変えるだけでよく、ロジックの変更は不要です。
リトライコストは無視できない:nanoは分類精度が不十分なエッジケースでリトライが必要になります。高品質要件のagentシステムでは、nanoが失敗したら自動的にminiにエスカレーション、miniが失敗したらフラッグシップにエスカレーションするfallbackメカニズムを設計すべきです。
まとめ:mini/nanoの価値は「安さ」ではなく、「フラッグシップがフラッグシップらしい仕事だけをできるようにすること」
この記事から一つだけ持ち帰るとしたら:mini/nanoの本質的な価値は「安さ」ではなく「役割分担」です。フラッグシップモデルを「何でもこなすフルタイム社員」から「高価値な判断だけを処理するシニアマネージャー」に変える手段がmini/nanoです。
今すぐ実行できる5つのステップ:
- agentシステム内のすべてのサブタスクをリストアップする——各API呼び出しを「計画系」「実行系」「検証系」に分類します
- 上記の決定表と照らし合わせる——miniに安全に切り替えられるタスク(実行系)とnanoに切り替えられるタスク(検証系)をマークします
- リスクの低いタスクから先にテストする——data extractionや分類タグ付けから始めることを推奨します。nanoが最も得意なシナリオです
- OpenAI Playgroundまたはテスト環境で品質を比較する——実際のデータ50〜100件を処理して、出力品質が許容できることを確認します
modelパラメーター1行を変えて本番環境へ——それだけです、アーキテクチャの変更は不要です
agentシステムで異なるモデルを組み合わせる方法についてさらに詳しく知りたい場合は、AI Agentメモリアーキテクチャガイドも書いています。マルチagentシステムにおける状態管理とメモリ設計を網羅しています。
FAQ
GPT-5.4 miniとnanoの料金はそれぞれいくらですか?
GPT-5.4 miniは入力100万トークンあたり$0.75、出力$4.50。GPT-5.4 nanoは入力$0.20、出力$1.25(USD)です。日本語1文字はおよそ1.5〜2トークン換算となります。miniで100万文字分の入力を処理した場合のコストは約$1.13〜$1.50で、GPT-5.4の$3.75〜$5.00と比べて約70%安くなります。
OpenAI Agents SDKで特定のagentにGPT-5.4 miniを使うよう指定するにはどうすればいいですか?
modelパラメーターを変更するだけです。Agent作成時にmodel='gpt-5.4-mini'またはmodel='gpt-5.4-nano'を渡してください。miniとnanoはGPT-5.4と完全に同じAPIフォーマット、function calling、system promptの仕様を使用しており、他のコードを変更する必要はありません。バージョンロックを避けるため、日付なしのモデルID(gpt-5.4-mini-2026-03-17ではなくgpt-5.4-mini)の使用を推奨します。


