6/15 Anthropic policy 変更対策 — Claude + Codex + Ollama の三層武装ガイド

★ 0
🎧 この記事を音声で聴く(12:13)
※ この記事の音声版は edge-tts (Microsoft) で生成しています。息継ぎや疑問文の語尾など、人間の話し方と異なる箇所があります。

5月15日の昼、僕の Discord に通知が来ました。 The Register の記事 — 「Anthropic tosses agents into the API billing pool」。

要するに、 6月15日から claude -p や Claude Agent SDK は Claude サブスクの本体枠から切り離され、別の月次クレジット枠に移る、という発表でした。

これは、僕のように Claude Max 5x を、cron や Task Scheduler から claude -p を非対話で呼び出す 自動化のインフラ(Anthropic 公式は “programmatic Claude usage” と呼んでいます) として使っている個人運用者に直撃します。前日に書いた 「一人で、チームを超える」と書いた僕が見た、1人開発の天井 で挙げた4つの天井のうち、 天井1(並列実行の物理上限) への構造的な答えを、外部要因が引き寄せた 形でした。

本記事は、同じ悩みに直面する人向けのガイドです。何が起きたか、誰が困るか、どう武装し直すか。僕が5月15日の昼の通知から、早急に Claude との会話によって組み立てた Claude + Codex + Ollama の三層武装 の設計、実装、コスト試算をまとめました。


何が起きたか — Anthropic 公式発表の事実整理

公式ソースを当てておきます。

種別ソース
公式案内Use the Claude Agent SDK with your Claude plan
公式ドキュメントAgent SDK overview(冒頭 Note)
公式アカウント発表Alex Albert (@alexalbert__) のツイート

整理すると、こうなります。

項目内容
発効日2026年6月15日
対象Claude Agent SDK / claude -p(非対話モード)/ Claude Code GitHub Actions / Agent SDK 経由のサードパーティアプリ
対象外ターミナル・IDE 内の対話的な Claude Code
月次クレジットPro: 20ドル相当、Max 5x: 100ドル相当、Max 20x: 200ドル相当
繰越なし(月末未使用分は失効)
超過時Extra usage を ON にすれば standard API rates で従量課金、OFF なら次月まで停止
公式推奨“Teams running shared production automation should use the Claude Developer Platform with an API key for predictable pay-as-you-go billing”

僕がこの中で一番引っかかった事実は、 対話的な Claude Code は対象外 という点でした。インタラクティブに僕がターミナルで叩く Claude Code は、6月15日以降も Max 5x の枠内で動きます。問題は claude -p を cron や Task Scheduler から呼んでいる自動化 だけが分離される、ということ。


影響を受ける運用パターン

別枠課金になる対象を、自分の運用に重ねて言い換えるとこうなります。

運用パターン該当する僕の構成
claude -p を cron / Task Scheduler から自動実行daily_news 1日3回 + 週次レポート + 朝礼・夜礼の自動ブリーフィング
Claude Code GitHub Actions で CI/CD に組み込み該当なし(今後組む予定の人は対象)
Claude Agent SDK(Python or TypeScript) 経由で自前エージェント該当なし(自前の自動化は claude -p 経由)
サードパーティアプリを Claude サブスクで認証OpenClaw / Conductor などを使っている人は対象

僕の運用で言えば、 Codex Plus 検証開始記事 でも触れた daily_news 自動収集が直撃します。さらに、5月から立ち上げていた 朝礼ブリーフィングの自動生成基盤 も、claude -p をフル活用していました。

実測してみると、僕の自動化分の月額(5月半月の実測を月換算)約 469ドル相当。Max 5x の新クレジット枠 100ドルに対して、 4.7倍超過 している計算でした。

内訳はこうです。

カテゴリ月換算占有率
—:—:
daily_news 自動収集(1日3回のニュース収集、v1 / v2 / v2_2 を並走)$35475%
週次ニュースレポート(土曜19時の週次まとめ)$429%
X daily投稿案作成(英語 + 日本語の日次自動生成)$317%
楽曲リリース支援(楽曲メタデータ・週次まとめ)$306%
朝礼・夜礼の自動ブリーフィング$82%
個人ビジョン 週次レビュー$51%
ジャーナル制作の補助$31%
自動化分の月合計~$469100%

daily_news 自動収集が 75% を占めていて、ここを L2/L3 に分散できるかが事実上の主戦場、というのが内訳から見えます。

つまり、6月15日以降は、何もしなければ Extra usage を ON にして約 370ドル分を API 従量で吸収するか、自動化を縮退させるかの二択になります。


取り得る選択肢

選択肢を整理しました。

内容月額目安評価
—:
(A) Extra usage ON で吸収何も変えず、超過分を API rate で従量課金約 469ドル短期は楽、構造は単一プロバイダ依存のまま
(B) Max 20x 昇格サブスクのみで $200 クレジット、超過部分は同じく Extra usage約 369ドル(Max 20x $200 + 超過 $169)単一プロバイダ依存は残る
(C) マルチプロバイダ武装Claude / Codex (ChatGPT Plus) / Local LLM の三層に分割約 153ドル単一プロバイダ依存を構造的に解消、コスト最小
(D) 自動化縮退claude -p 系を停止 or 頻度削減サブスク内事業のコンテンツパイプラインを諦める

僕は (D) を選ぶつもりはありません。1人開発の天井記事 で書いた、「3〜5人分の量を一人で出す」を維持するには、自動化は資産だからです。

(A) と (B) は「ベンダーに殴られたら殴られっぱなしになる」構造なので、リスク分散の観点で却下しました。 AI実装の参考とさせていただいている、元Google社員のクウキデザインのリオさんが語る、 「組織化で殴るのがプロ」 という原則を、僕自身の構成に当てはめると、組織化の物理層をプロバイダで増やす、というのが筋の解です。

ということで、本記事では (C) マルチプロバイダ武装 の具体構成を書きます。


三層武装の構成図 — Claude + Codex + Ollama

役割を分けます。

プロバイダ / モデル担当領域月額目安
—:
L1 判断層Claude Max 5x(Sonnet 4.6 / Opus 4.7)対話的 Claude Code、朝礼ブリーフィングの最終判断、ジャーナル執筆、最終キュレーション100ドル(サブスク)
L2 実装層ChatGPT Plus(Codex CLI / gpt-5.5)週次レポート初稿、楽曲メタデータ生成、X 投稿 draft、ファイル整理20ドル(¥3,000)
L3 フィルタ層Ollama + Qwen 2.5 7B(GTX 1660S 6GB VRAM)daily_news の関連ニュース選別、ヘルスチェック、軽要約約 5ドル(電気代)
補完Anthropic API keyAgent SDK Credit 超過時の保険0〜20ドル

設計思想は、こうです。

判断は Claude: 長文文脈、機微のある裁定、ジャーナル品質に直結する仕事
実装は Codex: コード生成、構造的要約、繰り返し処理。Anthropic と完全別建ての課金プール
フィルタは Local: 確率的セマンティック判定、24時間稼働、ファイルへの直接アクセス、プライバシー

これは設計原則である、「OSSで骨格、APIで精度」の運用への翻訳でもあります。監視やフィルタにローカルAIは構造的に適材で、判断クリティカルな部分だけ Claude を使う、という二段配置。

各タスクの振り分けマトリクスはこうなります。

タスク推奨層理由
daily_news の関連ニュース選別L3 Local意味的な関連性判定、品質低下リスク小、24時間稼働
daily_news 最終キュレーションL1 Claudeジャーナル上流の品質、対外発信の根幹
週次レポートL2 Codex構造的要約、gpt-5.5 で十分、Anthropic と別建て
朝礼ブリーフィングの統合判定L1 Claude複数プロジェクト統合、品質クリティカル
X 投稿 draftL2 Codex短文生成、Codex の得意領域
楽曲メタデータ生成L2 Codex同上
個人ビジョンの週次レビューL1 Claude自分の判断軸を更新する用途で品質要
過去 daily_news v1/v2 並走退役検証任務完了、v2_2 に変容

実装記録

記録に入る前に、自動化バッチを動かしているサーバー機の前提を出しておきます。

項目
役割自動化バッチ専用のサーバー機(24時間稼働、Tailscale 経由で SSH 接続)
OSWindows 11
CPUIntel Core i7-9700K
RAM48GB
GPUNVIDIA GTX 1660S(VRAM 6GB)

GPU 6GB という制約が、後で L3 のローカル LLM に 7B クラスの量子化モデルを選ぶ理由になります。

ここからは、僕がこの夜にやったことを時系列で。

L2 を立ち上げる — Codex CLI をサーバー機に入れる

ChatGPT Plus は5月6日から契約済みCodex Plus 検証開始記事 参照)。サーバー機にはまだ Codex CLI が入っていなかったので、インストールから。

npm install -g @openai/codex

Codex CLIcodex-cli 0.130.0が入りました。次に認証。

codex login --device-auth

device-auth--device-authフラグはありがたい仕組みで、 デバイスコードを表示してくれて、別端末のブラウザで認証画面を開けばリンク完了、というフロー。SSH 越しに動かしても、サーバー機のディスプレイにブラウザが立ち上がる必要はありません。

1度目は「ChatGPT のセキュリティ設定でデバイスコード認証を有効化してください」と弾かれましたが、設定を有効にして再実行でログイン成功Successfully logged inが出ました。

動作確認のために、 Codex 動作確認OK と返してください という超シンプルなプロンプトを通します。

codex exec --skip-git-repo-check --ephemeral --sandbox read-only -o output.txt $prompt

gpt-5.5 が自動選択されて、 1,657 トークンを 30 秒程度 で返してくれました(初回 Hello World レベル)

L2 の実プロンプトを通す — 週次レポート生成

「Hello World」は通っただけ。本番の判断材料にはなりません。

そこで、 daily_news の週次レポート生成ジョブが普段 Claude(Sonnet)に渡している 本物のプロンプト を、Codex に通してみました。直近のW19の週次データ(21ファイル、約 115 ニュース項目)と過去 10 週分のレポートを束ねた、169,151字のプロンプト。

Codex 出力Sonnet 既存
—:—:
出力サイズ13,781字13,978字
実行時間約 140 秒比較不能
URL 捏造なしなし
トピック数7 件7 件

サイズ、トピック数、URL の正確さがほぼ同等。トピックの取り方には差があって、Codex は MCP の拡大と脆弱性まで含めた一方、Sonnet は Cursor の RCE 脆弱性と米中AI協議を拾っていました(W19 期間の同一データを別の切り口で構造化した、ということ)。さらに Codex が、「Anthropic 単一依存のリスクも増した。長期案件では Claude、OpenAI、Gemini、Mistral、DeepSeek 等を切り替えられる抽象化を標準にすべき」と自発的に書いた のは、僕がこの記事を書くきっかけになった話題そのものでした。

数時間の観察ですが、 L2 は週次レポート用途では使えそう という感触が得られた段階です。本格的な「実用」判断は、複数の本番バッチを Codex に通したあとに観察フェーズで再評価します。

L3 を立ち上げる — Ollama に Qwen 2.5 7B を引っ張ってくる

L3 は、サーバー機に既に Ollama 0.21.2 が入っていて、 軽量モデル2つgemma3:4bllama3.2も pull 済みでした。これは半年ほど前に別の検証で入れたもの。

L3 の用途は、daily_news が拾ってきた外部ニュース候補を、僕の関心領域メモ(13 トピック、約 700字)と照らし合わせて「読む価値がありそうか」を 0〜100 でスコア化するフィルタ層です。Sonnet で全件を判定すると高コストなので、ここをローカル LLM に肩代わりさせたい。

新たに Qwen 2.5 7B(q4_K_M 量子化版、約 4.4GB)を pull して、3 モデル並列で同じプロンプトを通すベンチマークを組みました。テストデータは、5月14日の実ニュースから 6 件選んで正解ラベル(high 3 件 / low 3 件)を付けたものです。

モデル精度平均応答時間評価
:—:—:
gemma3:4b3/65.6 秒low を全部 high と判定、緩すぎ
qwen2.5:7b-instruct-q4_K_M6/69.2 秒PoC では完勝、第一候補として観察フェーズへ
llama3.2:latest3/66.3 秒JSON 解析失敗 2件、不安定

Qwen が 6件中6件で完勝。自分の関心領域に対する機微のある判定を 7B モデルでも返してくれる、という感触が掴めました。

この時点では、L3 を第一候補にして次に進めていいか、という感触でした。試算上は Sonnet コスト換算で 月額 30ドル程度 が浮く可能性(実運用での歩留まり次第)

実データで通したら、TP=0 だった

ところが、PoC のサンプル 6 件で勝ち取った確信を、 実データ 30 件のシミュレーション が部分的に覆します。

過去の外部ニュース候補 JSON(HN / TechCrunch / note.com から事前フェッチした 65 件のうち先頭 30 件)を、同じ Qwen に通して、既存の Sonnet 判定との一致率を取りました。

指標
—:
一致率(Qwen と Sonnet)26/30(86.7%)
Sonnet 通過3 件
Qwen 通過1 件
TP(両方が通過させた件数)0 件

「86.7% の一致率」は、ほとんどが 両方とも「無関係」と判定して同意したケース(TN=26)。本当に「通過させるべき」での一致は ゼロ

これは PoC サンプル 6件中6件では露呈しなかった構造的な厳しさ でした。Qwen は僕の関心の核(Java レガシー、Claude Code、エンタープライズ AI)に直結しないと、容赦なく低スコアに振る。一方 Sonnet は、運用で「業界マクロを取りこぼさない緩さ」を持って通している。

PoC 表に「観察フェーズへ」と書いた手前、 閾値の調整 + 1週間以上の連続観察が宿題として残る 形になりました。L3 は第一候補として観察フェーズに送る、というのが5月15日時点の整理です。PoC を覆す観察ができたこと自体は資産で、サンプルで勝った確信を実データが半分否定するのを、1日で踏めたのは大きい。エンプラ開発経験によって、検証する習慣が功を奏したところですね。


コスト試算 — 月額 589ドルから 153ドルへ

数字で締めます。旧運用と三層武装後の比較。

項目旧運用(5月実測月換算)三層武装後
—:—:
Claude サブスク(対話的)100ドル100ドル
自動化分(実効 API 換算)469ドル28〜48ドル
ChatGPT Plus20ドル20ドル
ローカル電気代0ドル約 5ドル
月合計589ドル約 153ドル
削減見込み年 約 78 万円

これは現状の 5月実測ベースの試算なので、 Qwen 閾値の調整が完了するまでは楽観的な見積もり として読んでください。L3 の関連ニュース選別は、閾値 40 では全件除外、60 では境界に集中する、という状態でまだ実装フェーズの宿題が残っています。

それでも、 年 78 万円という削減幅 は、 行動原則 に掲げている「正直に検証する — 数字を残す。事実で語る。」の数字としては大きい。一人 SIer の事業基盤のコスト構造に対する、構造的な答えの一つです。


6月15日までにやるべきチェックリスト

僕の場合の段取りを、汎用化してチェックリストにします。

– [ ] 自分の自動化分の月額を実測する(ccusage コマンドや ~/.claude/projects/ の JSONL を集計)
– [ ] 対象スコープを確認する(cron / Task Scheduler から claude -p を呼んでいる箇所、GitHub Actions、SDK 経由のアプリ)
– [ ] Max 5x の Agent SDK Credit 100ドルで足りるか試算する
– [ ] 足りない場合の選択肢を決める(A 〜 D の中から)
– [ ] マルチプロバイダ武装を選ぶなら: Codex CLI をインストールして、device-auth フローで認証(コマンドは npm install -g @openai/codexcodex login --device-auth
– [ ] ローカル LLM を入れるなら: Ollama を入れて、 GPU で動くサイズのモデル(Qwen 2.5 7B 推奨)を pull
– [ ] PoC サンプルでテストしたら、必ず実データでも回す(僕は PoC 6/6 で安心して、実データで TP=0 を踏みました)
– [ ] Max 20x への昇格は最終手段として温存する
– [ ] 6月14日に再度実測して、6月15日当日の挙動と比較する


変容として、武装する

5月15日の昼、 Discord の通知を見たとき、最初は「直撃では?」と感じました。月額 469ドルの自動化が、6月15日から枠外に出る、という事実は、それ自体としては重い。

でも、一度整理してみた結果、これは 天井1(並列実行の物理上限) の構造的な答えが外部要因でトリガーされた という整理に落ちました。設計原則の「Max 5x プラン枠内で完結する設計を死守」は、 「Claude + Codex + Local LLM の三層武装で組織化を回す」 に進化させる。

クウキデザインのリオさんが繰り返している「組織化で殴るのがプロ」というメタメッセージは、 組織化のスコープがプラン単位からプロバイダ単位に拡張された だけで、本質は同じです。一人 SIer の武装は、Anthropic 一社で組み立てる時期から、複数プロバイダで組み立てる時期に変容した。

検証してきた daily_news の 過去バージョン(v1, v2) と 現行(v2_2) も、似た構造でした。複数バージョンを並走させて検証して、経済圧力が来たから本命の現行版に絞る。 「無駄だったか」 と問われたら、違う。形が変わるフェーズだった、と答える。

1人開発の天井記事 で僕は「4つの天井を意識して回す」を結論に置きました。本記事は、その天井 1 への一段の答えです。

同じ不安からこの記事をここまで読んでいただいた皆さん。
6月15日までに、行動と観察を始めましょう。


FAQ

月額 589ドル → 153ドル の試算は、どこまで信頼していい?

5月の半月実測を月換算した数字なので、 ベースは実測値です。ただし L3 の Qwen は閾値の調整が宿題として残っており、 「外部ニュース候補のうち何割を Qwen でフィルタできるか」 がまだ確定していません。本記事の 28〜48ドルは楽観的見積もりとして読んでください。最悪のケースで L3 を捨てて L1 で全部フィルタしても、月 78ドル程度には収まる試算です。

Claude Max 5x の Agent SDK Credit 100ドルで全部賄うのは無理?

僕の場合は 4.7倍超過で無理でした。 daily_news 自動収集が月の自動化分の 86% を占めていたので、これを L3 と L2 に分散しないと枠内に収まらない構造。 ただ、 自動化の規模が小さい人であれば、 Max 5x の枠内で完結する可能性は十分あります。 まず自分の実測を取ることをお勧めします。

Ollama + Qwen 2.5 7B は本当に実用?

1日の検証では PoC サンプル 6/6、実データ 30件 では TP=0 という結果でした。「実用かどうか」は本記事の時点ではまだ判断できません。Qwen が自分の関心領域に対して保守的に判定する性質が見えたので、閾値の調整 + 1週間以上の連続観察を観察フェーズの宿題として持ち越します。最悪の場合に L3 を諦めて Sonnet 直叩きに戻すフォールバックは設計済みなので、その意味での保険は持っています。

Codex Plus 枠(¥3,000)で足りる?

1日の検証では、実バッチプロンプト1 回で約 1,600 トークン分の消費でした。月 4 回の週次レポート + 楽曲メタデータの週次まとめ + X 投稿 daily 3 本 を Codex に振り分けたとき、 月単位で Plus 枠に収まるかは 1ヶ月の実測待ち です。5/31 までは Pro $100 が 10x ブースト中なので、 Plus で枠不足を感じたら 5月内に Pro 昇格判断、 という運用を予定しています。

6/15 まであと 1 ヶ月、 今から間に合う?

僕はClaudeとの対話によって1晩で骨格を組みましたが、 これは ChatGPT Plus 既契約 + Ollama 既インストール + GTX 1660S 所有 という前提が揃っていたから。 ゼロから始める場合は、 Codex の OAuth フロー + Ollama のインストールと GPU 周りで 1日〜数日、 PoC + 実データ Sim でさらに 1〜2日、 という段取りが目安だと思います。さらに 本当に運用に乗るかは 1週間以上の連続観察で閾値や Plus 枠の消費スピードを実測する時間が要る ので、 6/15 まで 1ヶ月あればギリギリ間に合うかな、 というのが正直なところです。

この記事が参考になったら

Share