6/15 Anthropic policy 変更対策 — Claude + Codex + Ollama の三層武装ガイド

🎧 この記事を音声で聴く（12:13）

※ この記事の音声版は edge-tts (Microsoft) で生成しています。息継ぎや疑問文の語尾など、人間の話し方と異なる箇所があります。

5月15日の昼、僕の Discord に通知が来ました。 The Register の記事 — 「Anthropic tosses agents into the API billing pool」。

要するに、 6月15日から claude -p や Claude Agent SDK は Claude サブスクの本体枠から切り離され、別の月次クレジット枠に移る、という発表でした。

これは、僕のように Claude Max 5x を、cron や Task Scheduler から claude -p を非対話で呼び出す 自動化のインフラ（Anthropic 公式は “programmatic Claude usage” と呼んでいます）として使っている個人運用者に直撃します。前日に書いた「一人で、チームを超える」と書いた僕が見た、1人開発の天井で挙げた4つの天井のうち、 天井1（並列実行の物理上限）への構造的な答えを、外部要因が引き寄せた 形でした。

本記事は、同じ悩みに直面する人向けのガイドです。何が起きたか、誰が困るか、どう武装し直すか。僕が5月15日の昼の通知から、早急に Claude との会話によって組み立てた Claude + Codex + Ollama の三層武装 の設計、実装、コスト試算をまとめました。

何が起きたか — Anthropic 公式発表の事実整理

公式ソースを当てておきます。

種別	ソース
公式案内	Use the Claude Agent SDK with your Claude plan
公式ドキュメント	Agent SDK overview（冒頭 Note）
公式アカウント発表	Alex Albert (@alexalbert__) のツイート

整理すると、こうなります。

項目	内容
発効日	2026年6月15日
対象	Claude Agent SDK / `claude -p`（非対話モード）/ Claude Code GitHub Actions / Agent SDK 経由のサードパーティアプリ
対象外	ターミナル・IDE 内の対話的な Claude Code
月次クレジット	Pro: 20ドル相当、Max 5x: 100ドル相当、Max 20x: 200ドル相当
繰越	なし（月末未使用分は失効）
超過時	Extra usage を ON にすれば standard API rates で従量課金、OFF なら次月まで停止
公式推奨	“Teams running shared production automation should use the Claude Developer Platform with an API key for predictable pay-as-you-go billing”

僕がこの中で一番引っかかった事実は、 対話的な Claude Code は対象外 という点でした。インタラクティブに僕がターミナルで叩く Claude Code は、6月15日以降も Max 5x の枠内で動きます。問題は claude -p を cron や Task Scheduler から呼んでいる自動化 だけが分離される、ということ。

影響を受ける運用パターン

別枠課金になる対象を、自分の運用に重ねて言い換えるとこうなります。

運用パターン	該当する僕の構成
`claude -p` を cron / Task Scheduler から自動実行	daily_news 1日3回 + 週次レポート + 朝礼・夜礼の自動ブリーフィング
Claude Code GitHub Actions で CI/CD に組み込み	該当なし（今後組む予定の人は対象）
Claude Agent SDK（Python or TypeScript）経由で自前エージェント	該当なし（自前の自動化は `claude -p` 経由）
サードパーティアプリを Claude サブスクで認証	OpenClaw / Conductor などを使っている人は対象

僕の運用で言えば、 Codex Plus 検証開始記事でも触れた daily_news 自動収集が直撃します。さらに、5月から立ち上げていた 朝礼ブリーフィングの自動生成基盤 も、claude -p をフル活用していました。

実測してみると、僕の自動化分の月額（5月半月の実測を月換算）は 約 469ドル相当。Max 5x の新クレジット枠 100ドルに対して、 4.7倍超過 している計算でした。

内訳はこうです。

カテゴリ	月換算	占有率
—	—:	—:
daily_news 自動収集（1日3回のニュース収集、v1 / v2 / v2_2 を並走）	$354	75%
週次ニュースレポート（土曜19時の週次まとめ）	$42	9%
X daily投稿案作成（英語 + 日本語の日次自動生成）	$31	7%
楽曲リリース支援（楽曲メタデータ・週次まとめ）	$30	6%
朝礼・夜礼の自動ブリーフィング	$8	2%
個人ビジョン週次レビュー	$5	1%
ジャーナル制作の補助	$3	1%
自動化分の月合計	~$469	100%

daily_news 自動収集が 75% を占めていて、ここを L2/L3 に分散できるかが事実上の主戦場、というのが内訳から見えます。

つまり、6月15日以降は、何もしなければ Extra usage を ON にして約 370ドル分を API 従量で吸収するか、自動化を縮退させるかの二択になります。

取り得る選択肢

選択肢を整理しました。

案	内容	月額目安	評価
—	—	—:	—
(A) Extra usage ON で吸収	何も変えず、超過分を API rate で従量課金	約 469ドル	短期は楽、構造は単一プロバイダ依存のまま
(B) Max 20x 昇格	サブスクのみで $200 クレジット、超過部分は同じく Extra usage	約 369ドル（Max 20x $200 + 超過 $169）	単一プロバイダ依存は残る
(C) マルチプロバイダ武装	Claude / Codex (ChatGPT Plus) / Local LLM の三層に分割	約 153ドル	単一プロバイダ依存を構造的に解消、コスト最小
(D) 自動化縮退	`claude -p` 系を停止 or 頻度削減	サブスク内	事業のコンテンツパイプラインを諦める

僕は (D) を選ぶつもりはありません。1人開発の天井記事で書いた、「3〜5人分の量を一人で出す」を維持するには、自動化は資産だからです。

(A) と (B) は「ベンダーに殴られたら殴られっぱなしになる」構造なので、リスク分散の観点で却下しました。 AI実装の参考とさせていただいている、元Google社員のクウキデザインのリオさんが語る、 「組織化で殴るのがプロ」 という原則を、僕自身の構成に当てはめると、組織化の物理層をプロバイダで増やす、というのが筋の解です。

ということで、本記事では (C) マルチプロバイダ武装 の具体構成を書きます。

三層武装の構成図 — Claude + Codex + Ollama

役割を分けます。

層	プロバイダ / モデル	担当領域	月額目安
—	—	—	—:
L1 判断層	Claude Max 5x（Sonnet 4.6 / Opus 4.7）	対話的 Claude Code、朝礼ブリーフィングの最終判断、ジャーナル執筆、最終キュレーション	100ドル（サブスク）
L2 実装層	ChatGPT Plus（Codex CLI / gpt-5.5）	週次レポート初稿、楽曲メタデータ生成、X 投稿 draft、ファイル整理	20ドル（¥3,000）
L3 フィルタ層	Ollama + Qwen 2.5 7B（GTX 1660S 6GB VRAM）	daily_news の関連ニュース選別、ヘルスチェック、軽要約	約 5ドル（電気代）
補完	Anthropic API key	Agent SDK Credit 超過時の保険	0〜20ドル

設計思想は、こうです。

– 判断は Claude: 長文文脈、機微のある裁定、ジャーナル品質に直結する仕事
– 実装は Codex: コード生成、構造的要約、繰り返し処理。Anthropic と完全別建ての課金プール
– フィルタは Local: 確率的セマンティック判定、24時間稼働、ファイルへの直接アクセス、プライバシー

これは設計原則である、「OSSで骨格、APIで精度」の運用への翻訳でもあります。監視やフィルタにローカルAIは構造的に適材で、判断クリティカルな部分だけ Claude を使う、という二段配置。

各タスクの振り分けマトリクスはこうなります。

タスク	推奨層	理由
daily_news の関連ニュース選別	L3 Local	意味的な関連性判定、品質低下リスク小、24時間稼働
daily_news 最終キュレーション	L1 Claude	ジャーナル上流の品質、対外発信の根幹
週次レポート	L2 Codex	構造的要約、gpt-5.5 で十分、Anthropic と別建て
朝礼ブリーフィングの統合判定	L1 Claude	複数プロジェクト統合、品質クリティカル
X 投稿 draft	L2 Codex	短文生成、Codex の得意領域
楽曲メタデータ生成	L2 Codex	同上
個人ビジョンの週次レビュー	L1 Claude	自分の判断軸を更新する用途で品質要
過去 daily_news v1/v2 並走	退役	検証任務完了、v2_2 に変容

実装記録

記録に入る前に、自動化バッチを動かしているサーバー機の前提を出しておきます。

項目	値
役割	自動化バッチ専用のサーバー機（24時間稼働、Tailscale 経由で SSH 接続）
OS	Windows 11
CPU	Intel Core i7-9700K
RAM	48GB
GPU	NVIDIA GTX 1660S（VRAM 6GB）

GPU 6GB という制約が、後で L3 のローカル LLM に 7B クラスの量子化モデルを選ぶ理由になります。

ここからは、僕がこの夜にやったことを時系列で。

L2 を立ち上げる — Codex CLI をサーバー機に入れる

ChatGPT Plus は5月6日から契約済み（Codex Plus 検証開始記事参照）。サーバー機にはまだ Codex CLI が入っていなかったので、インストールから。

npm install -g @openai/codex

Codex CLI（codex-cli 0.130.0）が入りました。次に認証。

codex login --device-auth

device-auth（--device-auth）フラグはありがたい仕組みで、 デバイスコードを表示してくれて、別端末のブラウザで認証画面を開けばリンク完了、というフロー。SSH 越しに動かしても、サーバー機のディスプレイにブラウザが立ち上がる必要はありません。

1度目は「ChatGPT のセキュリティ設定でデバイスコード認証を有効化してください」と弾かれましたが、設定を有効にして再実行でログイン成功（Successfully logged in）が出ました。

動作確認のために、 Codex 動作確認OK と返してください という超シンプルなプロンプトを通します。

codex exec --skip-git-repo-check --ephemeral --sandbox read-only -o output.txt $prompt

gpt-5.5 が自動選択されて、 1,657 トークンを 30 秒程度 で返してくれました（初回 Hello World レベル）。

L2 の実プロンプトを通す — 週次レポート生成

「Hello World」は通っただけ。本番の判断材料にはなりません。

そこで、 daily_news の週次レポート生成ジョブが普段 Claude（Sonnet）に渡している 本物のプロンプト を、Codex に通してみました。直近のW19の週次データ（21ファイル、約 115 ニュース項目）と過去 10 週分のレポートを束ねた、169,151字のプロンプト。

	Codex 出力	Sonnet 既存
—	—:	—:
出力サイズ	13,781字	13,978字
実行時間	約 140 秒	比較不能
URL 捏造	なし	なし
トピック数	7 件	7 件

サイズ、トピック数、URL の正確さがほぼ同等。トピックの取り方には差があって、Codex は MCP の拡大と脆弱性まで含めた一方、Sonnet は Cursor の RCE 脆弱性と米中AI協議を拾っていました（W19 期間の同一データを別の切り口で構造化した、ということ）。さらに Codex が、「Anthropic 単一依存のリスクも増した。長期案件では Claude、OpenAI、Gemini、Mistral、DeepSeek 等を切り替えられる抽象化を標準にすべき」と自発的に書いたのは、僕がこの記事を書くきっかけになった話題そのものでした。

数時間の観察ですが、 L2 は週次レポート用途では使えそう という感触が得られた段階です。本格的な「実用」判断は、複数の本番バッチを Codex に通したあとに観察フェーズで再評価します。

L3 を立ち上げる — Ollama に Qwen 2.5 7B を引っ張ってくる

L3 は、サーバー機に既に Ollama 0.21.2 が入っていて、軽量モデル2つ（gemma3:4b と llama3.2）も pull 済みでした。これは半年ほど前に別の検証で入れたもの。

L3 の用途は、daily_news が拾ってきた外部ニュース候補を、僕の関心領域メモ（13 トピック、約 700字）と照らし合わせて「読む価値がありそうか」を 0〜100 でスコア化するフィルタ層です。Sonnet で全件を判定すると高コストなので、ここをローカル LLM に肩代わりさせたい。

新たに Qwen 2.5 7B（q4_K_M 量子化版、約 4.4GB）を pull して、3 モデル並列で同じプロンプトを通すベンチマークを組みました。テストデータは、5月14日の実ニュースから 6 件選んで正解ラベル（high 3 件 / low 3 件）を付けたものです。

モデル	精度	平均応答時間	評価
—	:—:	—:	—
gemma3:4b	3/6	5.6 秒	low を全部 high と判定、緩すぎ
qwen2.5:7b-instruct-q4_K_M	6/6	9.2 秒	PoC では完勝、第一候補として観察フェーズへ
llama3.2:latest	3/6	6.3 秒	JSON 解析失敗 2件、不安定

Qwen が 6件中6件で完勝。自分の関心領域に対する機微のある判定を 7B モデルでも返してくれる、という感触が掴めました。

この時点では、L3 を第一候補にして次に進めていいか、という感触でした。試算上は Sonnet コスト換算で 月額 30ドル程度 が浮く可能性（実運用での歩留まり次第）。

実データで通したら、TP=0 だった

ところが、PoC のサンプル 6 件で勝ち取った確信を、 実データ 30 件のシミュレーション が部分的に覆します。

過去の外部ニュース候補 JSON（HN / TechCrunch / note.com から事前フェッチした 65 件のうち先頭 30 件）を、同じ Qwen に通して、既存の Sonnet 判定との一致率を取りました。

指標	値
—	—:
一致率（Qwen と Sonnet）	26/30（86.7%）
Sonnet 通過	3 件
Qwen 通過	1 件
TP（両方が通過させた件数）	0 件

「86.7% の一致率」は、ほとんどが 両方とも「無関係」と判定して同意したケース（TN=26）。本当に「通過させるべき」での一致はゼロ。

これは PoC サンプル 6件中6件では露呈しなかった構造的な厳しさ でした。Qwen は僕の関心の核（Java レガシー、Claude Code、エンタープライズ AI）に直結しないと、容赦なく低スコアに振る。一方 Sonnet は、運用で「業界マクロを取りこぼさない緩さ」を持って通している。

PoC 表に「観察フェーズへ」と書いた手前、 閾値の調整 + 1週間以上の連続観察が宿題として残る 形になりました。L3 は第一候補として観察フェーズに送る、というのが5月15日時点の整理です。PoC を覆す観察ができたこと自体は資産で、サンプルで勝った確信を実データが半分否定するのを、1日で踏めたのは大きい。エンプラ開発経験によって、検証する習慣が功を奏したところですね。

コスト試算 — 月額 589ドルから 153ドルへ

数字で締めます。旧運用と三層武装後の比較。

項目	旧運用（5月実測月換算）	三層武装後
—	—:	—:
Claude サブスク（対話的）	100ドル	100ドル
自動化分（実効 API 換算）	469ドル	28〜48ドル
ChatGPT Plus	20ドル	20ドル
ローカル電気代	0ドル	約 5ドル
月合計	589ドル	約 153ドル
削減見込み	—	年約 78 万円

これは現状の 5月実測ベースの試算なので、 Qwen 閾値の調整が完了するまでは楽観的な見積もり として読んでください。L3 の関連ニュース選別は、閾値 40 では全件除外、60 では境界に集中する、という状態でまだ実装フェーズの宿題が残っています。

それでも、 年 78 万円という削減幅 は、行動原則に掲げている「正直に検証する — 数字を残す。事実で語る。」の数字としては大きい。一人 SIer の事業基盤のコスト構造に対する、構造的な答えの一つです。

6月15日までにやるべきチェックリスト

僕の場合の段取りを、汎用化してチェックリストにします。

– [ ] 自分の自動化分の月額を実測する（ccusage コマンドや ~/.claude/projects/ の JSONL を集計）
– [ ] 対象スコープを確認する（cron / Task Scheduler から claude -p を呼んでいる箇所、GitHub Actions、SDK 経由のアプリ）
– [ ] Max 5x の Agent SDK Credit 100ドルで足りるか試算する
– [ ] 足りない場合の選択肢を決める（A 〜 D の中から）
– [ ] マルチプロバイダ武装を選ぶなら: Codex CLI をインストールして、device-auth フローで認証（コマンドは npm install -g @openai/codex と codex login --device-auth）
– [ ] ローカル LLM を入れるなら: Ollama を入れて、 GPU で動くサイズのモデル（Qwen 2.5 7B 推奨）を pull
– [ ] PoC サンプルでテストしたら、必ず実データでも回す（僕は PoC 6/6 で安心して、実データで TP=0 を踏みました）
– [ ] Max 20x への昇格は最終手段として温存する
– [ ] 6月14日に再度実測して、6月15日当日の挙動と比較する

変容として、武装する

5月15日の昼、 Discord の通知を見たとき、最初は「直撃では?」と感じました。月額 469ドルの自動化が、6月15日から枠外に出る、という事実は、それ自体としては重い。

でも、一度整理してみた結果、これは 天井1（並列実行の物理上限）の構造的な答えが外部要因でトリガーされた という整理に落ちました。設計原則の「Max 5x プラン枠内で完結する設計を死守」は、 「Claude + Codex + Local LLM の三層武装で組織化を回す」 に進化させる。

クウキデザインのリオさんが繰り返している「組織化で殴るのがプロ」というメタメッセージは、 組織化のスコープがプラン単位からプロバイダ単位に拡張された だけで、本質は同じです。一人 SIer の武装は、Anthropic 一社で組み立てる時期から、複数プロバイダで組み立てる時期に変容した。

検証してきた daily_news の過去バージョン（v1, v2）と現行（v2_2） も、似た構造でした。複数バージョンを並走させて検証して、経済圧力が来たから本命の現行版に絞る。 「無駄だったか」と問われたら、違う。形が変わるフェーズだった、と答える。

1人開発の天井記事で僕は「4つの天井を意識して回す」を結論に置きました。本記事は、その天井 1 への一段の答えです。

同じ不安からこの記事をここまで読んでいただいた皆さん。
6月15日までに、行動と観察を始めましょう。

FAQ

月額 589ドル → 153ドルの試算は、どこまで信頼していい?

5月の半月実測を月換算した数字なので、ベースは実測値です。ただし L3 の Qwen は閾値の調整が宿題として残っており、「外部ニュース候補のうち何割を Qwen でフィルタできるか」がまだ確定していません。本記事の 28〜48ドルは楽観的見積もりとして読んでください。最悪のケースで L3 を捨てて L1 で全部フィルタしても、月 78ドル程度には収まる試算です。

Claude Max 5x の Agent SDK Credit 100ドルで全部賄うのは無理?

僕の場合は 4.7倍超過で無理でした。 daily_news 自動収集が月の自動化分の 86% を占めていたので、これを L3 と L2 に分散しないと枠内に収まらない構造。ただ、自動化の規模が小さい人であれば、 Max 5x の枠内で完結する可能性は十分あります。まず自分の実測を取ることをお勧めします。

Ollama + Qwen 2.5 7B は本当に実用?

1日の検証では PoC サンプル 6/6、実データ 30件では TP=0 という結果でした。「実用かどうか」は本記事の時点ではまだ判断できません。Qwen が自分の関心領域に対して保守的に判定する性質が見えたので、閾値の調整 + 1週間以上の連続観察を観察フェーズの宿題として持ち越します。最悪の場合に L3 を諦めて Sonnet 直叩きに戻すフォールバックは設計済みなので、その意味での保険は持っています。

Codex Plus 枠（¥3,000）で足りる?

1日の検証では、実バッチプロンプト1 回で約 1,600 トークン分の消費でした。月 4 回の週次レポート + 楽曲メタデータの週次まとめ + X 投稿 daily 3 本を Codex に振り分けたとき、 月単位で Plus 枠に収まるかは 1ヶ月の実測待ち です。5/31 までは Pro $100 が 10x ブースト中なので、 Plus で枠不足を感じたら 5月内に Pro 昇格判断、という運用を予定しています。

6/15 まであと 1 ヶ月、今から間に合う?

僕はClaudeとの対話によって1晩で骨格を組みましたが、これは ChatGPT Plus 既契約 + Ollama 既インストール + GTX 1660S 所有という前提が揃っていたから。ゼロから始める場合は、 Codex の OAuth フロー + Ollama のインストールと GPU 周りで 1日〜数日、 PoC + 実データ Sim でさらに 1〜2日、という段取りが目安だと思います。さらに 本当に運用に乗るかは 1週間以上の連続観察で閾値や Plus 枠の消費スピードを実測する時間が要る ので、 6/15 まで 1ヶ月あればギリギリ間に合うかな、というのが正直なところです。

この記事が参考になったら