5月15日の昼、僕の Discord に通知が来ました。 The Register の記事 — 「Anthropic tosses agents into the API billing pool」。
要するに、 6月15日から claude -p や Claude Agent SDK は Claude サブスクの本体枠から切り離され、別の月次クレジット枠に移る、という発表でした。
これは、僕のように Claude Max 5x を、cron や Task Scheduler から claude -p を非対話で呼び出す 自動化のインフラ(Anthropic 公式は “programmatic Claude usage” と呼んでいます) として使っている個人運用者に直撃します。前日に書いた 「一人で、チームを超える」と書いた僕が見た、1人開発の天井 で挙げた4つの天井のうち、 天井1(並列実行の物理上限) への構造的な答えを、外部要因が引き寄せた 形でした。
本記事は、同じ悩みに直面する人向けのガイドです。何が起きたか、誰が困るか、どう武装し直すか。僕が5月15日の昼の通知から、早急に Claude との会話によって組み立てた Claude + Codex + Ollama の三層武装 の設計、実装、コスト試算をまとめました。
何が起きたか — Anthropic 公式発表の事実整理
公式ソースを当てておきます。
| 種別 | ソース |
|---|---|
| 公式案内 | Use the Claude Agent SDK with your Claude plan |
| 公式ドキュメント | Agent SDK overview(冒頭 Note) |
| 公式アカウント発表 | Alex Albert (@alexalbert__) のツイート |
整理すると、こうなります。
| 項目 | 内容 |
|---|---|
| 発効日 | 2026年6月15日 |
| 対象 | Claude Agent SDK / claude -p(非対話モード)/ Claude Code GitHub Actions / Agent SDK 経由のサードパーティアプリ |
| 対象外 | ターミナル・IDE 内の対話的な Claude Code |
| 月次クレジット | Pro: 20ドル相当、Max 5x: 100ドル相当、Max 20x: 200ドル相当 |
| 繰越 | なし(月末未使用分は失効) |
| 超過時 | Extra usage を ON にすれば standard API rates で従量課金、OFF なら次月まで停止 |
| 公式推奨 | “Teams running shared production automation should use the Claude Developer Platform with an API key for predictable pay-as-you-go billing” |
僕がこの中で一番引っかかった事実は、 対話的な Claude Code は対象外 という点でした。インタラクティブに僕がターミナルで叩く Claude Code は、6月15日以降も Max 5x の枠内で動きます。問題は claude -p を cron や Task Scheduler から呼んでいる自動化 だけが分離される、ということ。
影響を受ける運用パターン
別枠課金になる対象を、自分の運用に重ねて言い換えるとこうなります。
| 運用パターン | 該当する僕の構成 |
|---|---|
claude -p を cron / Task Scheduler から自動実行 | daily_news 1日3回 + 週次レポート + 朝礼・夜礼の自動ブリーフィング |
| Claude Code GitHub Actions で CI/CD に組み込み | 該当なし(今後組む予定の人は対象) |
| Claude Agent SDK(Python or TypeScript) 経由で自前エージェント | 該当なし(自前の自動化は claude -p 経由) |
| サードパーティアプリを Claude サブスクで認証 | OpenClaw / Conductor などを使っている人は対象 |
僕の運用で言えば、 Codex Plus 検証開始記事 でも触れた daily_news 自動収集が直撃します。さらに、5月から立ち上げていた 朝礼ブリーフィングの自動生成基盤 も、claude -p をフル活用していました。
実測してみると、僕の自動化分の月額(5月半月の実測を月換算) は 約 469ドル相当。Max 5x の新クレジット枠 100ドルに対して、 4.7倍超過 している計算でした。
内訳はこうです。
| カテゴリ | 月換算 | 占有率 |
|---|---|---|
| — | —: | —: |
| daily_news 自動収集(1日3回のニュース収集、v1 / v2 / v2_2 を並走) | $354 | 75% |
| 週次ニュースレポート(土曜19時の週次まとめ) | $42 | 9% |
| X daily投稿案作成(英語 + 日本語の日次自動生成) | $31 | 7% |
| 楽曲リリース支援(楽曲メタデータ・週次まとめ) | $30 | 6% |
| 朝礼・夜礼の自動ブリーフィング | $8 | 2% |
| 個人ビジョン 週次レビュー | $5 | 1% |
| ジャーナル制作の補助 | $3 | 1% |
| 自動化分の月合計 | ~$469 | 100% |
daily_news 自動収集が 75% を占めていて、ここを L2/L3 に分散できるかが事実上の主戦場、というのが内訳から見えます。
つまり、6月15日以降は、何もしなければ Extra usage を ON にして約 370ドル分を API 従量で吸収するか、自動化を縮退させるかの二択になります。
取り得る選択肢
選択肢を整理しました。
| 案 | 内容 | 月額目安 | 評価 |
|---|---|---|---|
| — | — | —: | — |
| (A) Extra usage ON で吸収 | 何も変えず、超過分を API rate で従量課金 | 約 469ドル | 短期は楽、構造は単一プロバイダ依存のまま |
| (B) Max 20x 昇格 | サブスクのみで $200 クレジット、超過部分は同じく Extra usage | 約 369ドル(Max 20x $200 + 超過 $169) | 単一プロバイダ依存は残る |
| (C) マルチプロバイダ武装 | Claude / Codex (ChatGPT Plus) / Local LLM の三層に分割 | 約 153ドル | 単一プロバイダ依存を構造的に解消、コスト最小 |
| (D) 自動化縮退 | claude -p 系を停止 or 頻度削減 | サブスク内 | 事業のコンテンツパイプラインを諦める |
僕は (D) を選ぶつもりはありません。1人開発の天井記事 で書いた、「3〜5人分の量を一人で出す」を維持するには、自動化は資産だからです。
(A) と (B) は「ベンダーに殴られたら殴られっぱなしになる」構造なので、リスク分散の観点で却下しました。 AI実装の参考とさせていただいている、元Google社員のクウキデザインのリオさんが語る、 「組織化で殴るのがプロ」 という原則を、僕自身の構成に当てはめると、組織化の物理層をプロバイダで増やす、というのが筋の解です。
ということで、本記事では (C) マルチプロバイダ武装 の具体構成を書きます。
三層武装の構成図 — Claude + Codex + Ollama
役割を分けます。
| 層 | プロバイダ / モデル | 担当領域 | 月額目安 |
|---|---|---|---|
| — | — | — | —: |
| L1 判断層 | Claude Max 5x(Sonnet 4.6 / Opus 4.7) | 対話的 Claude Code、朝礼ブリーフィングの最終判断、ジャーナル執筆、最終キュレーション | 100ドル(サブスク) |
| L2 実装層 | ChatGPT Plus(Codex CLI / gpt-5.5) | 週次レポート初稿、楽曲メタデータ生成、X 投稿 draft、ファイル整理 | 20ドル(¥3,000) |
| L3 フィルタ層 | Ollama + Qwen 2.5 7B(GTX 1660S 6GB VRAM) | daily_news の関連ニュース選別、ヘルスチェック、軽要約 | 約 5ドル(電気代) |
| 補完 | Anthropic API key | Agent SDK Credit 超過時の保険 | 0〜20ドル |
設計思想は、こうです。
– 判断は Claude: 長文文脈、機微のある裁定、ジャーナル品質に直結する仕事
– 実装は Codex: コード生成、構造的要約、繰り返し処理。Anthropic と完全別建ての課金プール
– フィルタは Local: 確率的セマンティック判定、24時間稼働、ファイルへの直接アクセス、プライバシー
これは設計原則である、「OSSで骨格、APIで精度」の運用への翻訳でもあります。監視やフィルタにローカルAIは構造的に適材で、判断クリティカルな部分だけ Claude を使う、という二段配置。
各タスクの振り分けマトリクスはこうなります。
| タスク | 推奨層 | 理由 |
|---|---|---|
| daily_news の関連ニュース選別 | L3 Local | 意味的な関連性判定、品質低下リスク小、24時間稼働 |
| daily_news 最終キュレーション | L1 Claude | ジャーナル上流の品質、対外発信の根幹 |
| 週次レポート | L2 Codex | 構造的要約、gpt-5.5 で十分、Anthropic と別建て |
| 朝礼ブリーフィングの統合判定 | L1 Claude | 複数プロジェクト統合、品質クリティカル |
| X 投稿 draft | L2 Codex | 短文生成、Codex の得意領域 |
| 楽曲メタデータ生成 | L2 Codex | 同上 |
| 個人ビジョンの週次レビュー | L1 Claude | 自分の判断軸を更新する用途で品質要 |
| 過去 daily_news v1/v2 並走 | 退役 | 検証任務完了、v2_2 に変容 |
実装記録
記録に入る前に、自動化バッチを動かしているサーバー機の前提を出しておきます。
| 項目 | 値 |
|---|---|
| 役割 | 自動化バッチ専用のサーバー機(24時間稼働、Tailscale 経由で SSH 接続) |
| OS | Windows 11 |
| CPU | Intel Core i7-9700K |
| RAM | 48GB |
| GPU | NVIDIA GTX 1660S(VRAM 6GB) |
GPU 6GB という制約が、後で L3 のローカル LLM に 7B クラスの量子化モデルを選ぶ理由になります。
ここからは、僕がこの夜にやったことを時系列で。
L2 を立ち上げる — Codex CLI をサーバー機に入れる
ChatGPT Plus は5月6日から契約済み(Codex Plus 検証開始記事 参照)。サーバー機にはまだ Codex CLI が入っていなかったので、インストールから。
npm install -g @openai/codex
Codex CLI(codex-cli 0.130.0)が入りました。次に認証。
codex login --device-auth
device-auth(--device-auth)フラグはありがたい仕組みで、 デバイスコードを表示してくれて、別端末のブラウザで認証画面を開けばリンク完了、というフロー。SSH 越しに動かしても、サーバー機のディスプレイにブラウザが立ち上がる必要はありません。
1度目は「ChatGPT のセキュリティ設定でデバイスコード認証を有効化してください」と弾かれましたが、設定を有効にして再実行でログイン成功(Successfully logged in)が出ました。
動作確認のために、 Codex 動作確認OK と返してください という超シンプルなプロンプトを通します。
codex exec --skip-git-repo-check --ephemeral --sandbox read-only -o output.txt $prompt
gpt-5.5 が自動選択されて、 1,657 トークンを 30 秒程度 で返してくれました(初回 Hello World レベル)。
L2 の実プロンプトを通す — 週次レポート生成
「Hello World」は通っただけ。本番の判断材料にはなりません。
そこで、 daily_news の週次レポート生成ジョブが普段 Claude(Sonnet)に渡している 本物のプロンプト を、Codex に通してみました。直近のW19の週次データ(21ファイル、約 115 ニュース項目)と過去 10 週分のレポートを束ねた、169,151字のプロンプト。
| Codex 出力 | Sonnet 既存 | |
|---|---|---|
| — | —: | —: |
| 出力サイズ | 13,781字 | 13,978字 |
| 実行時間 | 約 140 秒 | 比較不能 |
| URL 捏造 | なし | なし |
| トピック数 | 7 件 | 7 件 |
サイズ、トピック数、URL の正確さがほぼ同等。トピックの取り方には差があって、Codex は MCP の拡大と脆弱性まで含めた一方、Sonnet は Cursor の RCE 脆弱性と米中AI協議を拾っていました(W19 期間の同一データを別の切り口で構造化した、ということ)。さらに Codex が、「Anthropic 単一依存のリスクも増した。長期案件では Claude、OpenAI、Gemini、Mistral、DeepSeek 等を切り替えられる抽象化を標準にすべき」と自発的に書いた のは、僕がこの記事を書くきっかけになった話題そのものでした。
数時間の観察ですが、 L2 は週次レポート用途では使えそう という感触が得られた段階です。本格的な「実用」判断は、複数の本番バッチを Codex に通したあとに観察フェーズで再評価します。
L3 を立ち上げる — Ollama に Qwen 2.5 7B を引っ張ってくる
L3 は、サーバー機に既に Ollama 0.21.2 が入っていて、 軽量モデル2つ(gemma3:4b と llama3.2)も pull 済みでした。これは半年ほど前に別の検証で入れたもの。
L3 の用途は、daily_news が拾ってきた外部ニュース候補を、僕の関心領域メモ(13 トピック、約 700字)と照らし合わせて「読む価値がありそうか」を 0〜100 でスコア化するフィルタ層です。Sonnet で全件を判定すると高コストなので、ここをローカル LLM に肩代わりさせたい。
新たに Qwen 2.5 7B(q4_K_M 量子化版、約 4.4GB)を pull して、3 モデル並列で同じプロンプトを通すベンチマークを組みました。テストデータは、5月14日の実ニュースから 6 件選んで正解ラベル(high 3 件 / low 3 件)を付けたものです。
| モデル | 精度 | 平均応答時間 | 評価 |
|---|---|---|---|
| — | :—: | —: | — |
| gemma3:4b | 3/6 | 5.6 秒 | low を全部 high と判定、緩すぎ |
| qwen2.5:7b-instruct-q4_K_M | 6/6 | 9.2 秒 | PoC では完勝、第一候補として観察フェーズへ |
| llama3.2:latest | 3/6 | 6.3 秒 | JSON 解析失敗 2件、不安定 |
Qwen が 6件中6件で完勝。自分の関心領域に対する機微のある判定を 7B モデルでも返してくれる、という感触が掴めました。
この時点では、L3 を第一候補にして次に進めていいか、という感触でした。試算上は Sonnet コスト換算で 月額 30ドル程度 が浮く可能性(実運用での歩留まり次第)。
実データで通したら、TP=0 だった
ところが、PoC のサンプル 6 件で勝ち取った確信を、 実データ 30 件のシミュレーション が部分的に覆します。
過去の外部ニュース候補 JSON(HN / TechCrunch / note.com から事前フェッチした 65 件のうち先頭 30 件)を、同じ Qwen に通して、既存の Sonnet 判定との一致率を取りました。
| 指標 | 値 |
|---|---|
| — | —: |
| 一致率(Qwen と Sonnet) | 26/30(86.7%) |
| Sonnet 通過 | 3 件 |
| Qwen 通過 | 1 件 |
| TP(両方が通過させた件数) | 0 件 |
「86.7% の一致率」は、ほとんどが 両方とも「無関係」と判定して同意したケース(TN=26)。本当に「通過させるべき」での一致は ゼロ。
これは PoC サンプル 6件中6件では露呈しなかった構造的な厳しさ でした。Qwen は僕の関心の核(Java レガシー、Claude Code、エンタープライズ AI)に直結しないと、容赦なく低スコアに振る。一方 Sonnet は、運用で「業界マクロを取りこぼさない緩さ」を持って通している。
PoC 表に「観察フェーズへ」と書いた手前、 閾値の調整 + 1週間以上の連続観察が宿題として残る 形になりました。L3 は第一候補として観察フェーズに送る、というのが5月15日時点の整理です。PoC を覆す観察ができたこと自体は資産で、サンプルで勝った確信を実データが半分否定するのを、1日で踏めたのは大きい。エンプラ開発経験によって、検証する習慣が功を奏したところですね。
コスト試算 — 月額 589ドルから 153ドルへ
数字で締めます。旧運用と三層武装後の比較。
| 項目 | 旧運用(5月実測月換算) | 三層武装後 |
|---|---|---|
| — | —: | —: |
| Claude サブスク(対話的) | 100ドル | 100ドル |
| 自動化分(実効 API 換算) | 469ドル | 28〜48ドル |
| ChatGPT Plus | 20ドル | 20ドル |
| ローカル電気代 | 0ドル | 約 5ドル |
| 月合計 | 589ドル | 約 153ドル |
| 削減見込み | — | 年 約 78 万円 |
これは現状の 5月実測ベースの試算なので、 Qwen 閾値の調整が完了するまでは楽観的な見積もり として読んでください。L3 の関連ニュース選別は、閾値 40 では全件除外、60 では境界に集中する、という状態でまだ実装フェーズの宿題が残っています。
それでも、 年 78 万円という削減幅 は、 行動原則 に掲げている「正直に検証する — 数字を残す。事実で語る。」の数字としては大きい。一人 SIer の事業基盤のコスト構造に対する、構造的な答えの一つです。
6月15日までにやるべきチェックリスト
僕の場合の段取りを、汎用化してチェックリストにします。
– [ ] 自分の自動化分の月額を実測する(ccusage コマンドや ~/.claude/projects/ の JSONL を集計)
– [ ] 対象スコープを確認する(cron / Task Scheduler から claude -p を呼んでいる箇所、GitHub Actions、SDK 経由のアプリ)
– [ ] Max 5x の Agent SDK Credit 100ドルで足りるか試算する
– [ ] 足りない場合の選択肢を決める(A 〜 D の中から)
– [ ] マルチプロバイダ武装を選ぶなら: Codex CLI をインストールして、device-auth フローで認証(コマンドは npm install -g @openai/codex と codex login --device-auth)
– [ ] ローカル LLM を入れるなら: Ollama を入れて、 GPU で動くサイズのモデル(Qwen 2.5 7B 推奨)を pull
– [ ] PoC サンプルでテストしたら、必ず実データでも回す(僕は PoC 6/6 で安心して、実データで TP=0 を踏みました)
– [ ] Max 20x への昇格は最終手段として温存する
– [ ] 6月14日に再度実測して、6月15日当日の挙動と比較する
変容として、武装する
5月15日の昼、 Discord の通知を見たとき、最初は「直撃では?」と感じました。月額 469ドルの自動化が、6月15日から枠外に出る、という事実は、それ自体としては重い。
でも、一度整理してみた結果、これは 天井1(並列実行の物理上限) の構造的な答えが外部要因でトリガーされた という整理に落ちました。設計原則の「Max 5x プラン枠内で完結する設計を死守」は、 「Claude + Codex + Local LLM の三層武装で組織化を回す」 に進化させる。
クウキデザインのリオさんが繰り返している「組織化で殴るのがプロ」というメタメッセージは、 組織化のスコープがプラン単位からプロバイダ単位に拡張された だけで、本質は同じです。一人 SIer の武装は、Anthropic 一社で組み立てる時期から、複数プロバイダで組み立てる時期に変容した。
検証してきた daily_news の 過去バージョン(v1, v2) と 現行(v2_2) も、似た構造でした。複数バージョンを並走させて検証して、経済圧力が来たから本命の現行版に絞る。 「無駄だったか」 と問われたら、違う。形が変わるフェーズだった、と答える。
1人開発の天井記事 で僕は「4つの天井を意識して回す」を結論に置きました。本記事は、その天井 1 への一段の答えです。
同じ不安からこの記事をここまで読んでいただいた皆さん。
6月15日までに、行動と観察を始めましょう。
FAQ
月額 589ドル → 153ドル の試算は、どこまで信頼していい?
5月の半月実測を月換算した数字なので、 ベースは実測値です。ただし L3 の Qwen は閾値の調整が宿題として残っており、 「外部ニュース候補のうち何割を Qwen でフィルタできるか」 がまだ確定していません。本記事の 28〜48ドルは楽観的見積もりとして読んでください。最悪のケースで L3 を捨てて L1 で全部フィルタしても、月 78ドル程度には収まる試算です。
Claude Max 5x の Agent SDK Credit 100ドルで全部賄うのは無理?
僕の場合は 4.7倍超過で無理でした。 daily_news 自動収集が月の自動化分の 86% を占めていたので、これを L3 と L2 に分散しないと枠内に収まらない構造。 ただ、 自動化の規模が小さい人であれば、 Max 5x の枠内で完結する可能性は十分あります。 まず自分の実測を取ることをお勧めします。
Ollama + Qwen 2.5 7B は本当に実用?
1日の検証では PoC サンプル 6/6、実データ 30件 では TP=0 という結果でした。「実用かどうか」は本記事の時点ではまだ判断できません。Qwen が自分の関心領域に対して保守的に判定する性質が見えたので、閾値の調整 + 1週間以上の連続観察を観察フェーズの宿題として持ち越します。最悪の場合に L3 を諦めて Sonnet 直叩きに戻すフォールバックは設計済みなので、その意味での保険は持っています。
Codex Plus 枠(¥3,000)で足りる?
1日の検証では、実バッチプロンプト1 回で約 1,600 トークン分の消費でした。月 4 回の週次レポート + 楽曲メタデータの週次まとめ + X 投稿 daily 3 本 を Codex に振り分けたとき、 月単位で Plus 枠に収まるかは 1ヶ月の実測待ち です。5/31 までは Pro $100 が 10x ブースト中なので、 Plus で枠不足を感じたら 5月内に Pro 昇格判断、 という運用を予定しています。
6/15 まであと 1 ヶ月、 今から間に合う?
僕はClaudeとの対話によって1晩で骨格を組みましたが、 これは ChatGPT Plus 既契約 + Ollama 既インストール + GTX 1660S 所有 という前提が揃っていたから。 ゼロから始める場合は、 Codex の OAuth フロー + Ollama のインストールと GPU 周りで 1日〜数日、 PoC + 実データ Sim でさらに 1〜2日、 という段取りが目安だと思います。さらに 本当に運用に乗るかは 1週間以上の連続観察で閾値や Plus 枠の消費スピードを実測する時間が要る ので、 6/15 まで 1ヶ月あればギリギリ間に合うかな、 というのが正直なところです。
この記事が参考になったら
Share