「Claude の 1/7 のコスト」の嘘ではない嘘 — API経済と個人経済の境界線

★ 0
🎧 この記事を音声で聴く(26:24)

「シリコンバレーのIT最前線が、中国製AIモデルに乗り換え始めている」

そんな記事を現代ビジネスで読みました。Andreessen Horowitz(a16z)のパートナーが「売り込みに来るスタートアップの80%が中国のオープンソースモデルを使っている」と発言し、Kimi K2.5はClaude Opusの1/7のコストで迫る性能を出し、OpenRouterでの中国モデル利用シェアは2024年末のほぼゼロから30%まで上昇した—そんな数字が並んでいます。

なお、記事本体はマクロな地政学シナリオ(米国のエネルギー制約と中国AIの効率設計)を展開する論説で、本稿はその中に含まれる数字の部分にフォーカスします。

読み終えて最初に思ったのは、「じゃあ、僕も乗り換えた方がいいのかな?」と。

独立AIエンジニアとして、Claude Max(月100ドル)の固定費が将来上がるかもしれないという懸念は常に頭の片隅にあります。加えて、5時間のウィンドウと1週間のリセットというレート制限を意識した作業計画は、もう日常に組み込まれています。重い作業はリセット直後に、軽い作業は上限が近いときに回す—そういう調整が当たり前になっていた。

でも、この記事を鵜呑みにして「中国モデルに乗り換える判断」をしていいのか。そこで一度止まって、並列サブエージェントで合計6方向の一次ソースリサーチに投げました。

結果、記事の前提だった数字が層ごとに全く違う景色になることがわかりました。そしてそれ以上に、記事を読んだ直後に僕が立てた「Anthropicの資本力が弱まって個人に波及するのでは」という自分自身の仮説も、ほぼ棄却することになりました。

今回は、その検証の記録です。


「じゃあ僕も乗り換えるべき?」の出発点

記事を読みながら、僕の頭の中で動いていた思考はこんな感じでした。

– シリコンバレーが乗り換え始めているなら、個人開発者も遠からず追随する波が来る
– Claude Maxの月額が将来上がるかもしれないなら、今のうちにKimi K2.5やQwen3のローカル運用を練習しておくべきでは
– 中国製というとデータ流出の懸念があるが、ローカル運用なら通信が発生しないので関係ないはず
– Claude Opusの1/7のコストは魅力的。自分のパイプラインの一部でも置き換えれば固定費が下がる

この思考の流れは、記事を読んだ他の個人開発者の多くも通るものだと思います。「コスト圧迫への備え」「新しい技術の練習」「セキュリティは自分で制御」—どれも合理的に見える。

ただ、どの項目も記事の数字を正しく読んでいる前提で成立しています。そこが怪しかったら、全部崩れる。

以前並列サブエージェントにリサーチさせたら、同じ事例で数字が食い違っていた経験を書きました。数字は簡単に変形する。だから出発点に戻って、一次ソースから積み上げることにしました。


嘘ではない嘘 ①:「80%」は、指標を切り替えて見ると像が変わる

記事冒頭の衝撃的な数字、「売り込みに来るスタートアップの80%が中国のオープンソースモデルを使っている」。この発言者はMartin Casado—Andreessen Horowitz(a16z)のジェネラルパートナーです。

原発言を辿ると、The Economist 2025年8月21日の記事にたどり着きました。ここまでは現代ビジネスの引用と一致しています。

ところが、その3ヶ月後。Casado本人がXで訂正ツイートを出していました。2025年11月17日の投稿です。

Well, not quite. I’d say 20-30% use open source. Of those I’d say 80% use Chinese based models. So closer to 16-24%.

要するに、「売り込みの80%が中国モデルを使っている」は誤読なんです。Casadoが実際に言っているのは「売り込みのうち20~30%がオープンソースを使っていて、そのうちの80%が中国製」。掛け算すると、全体では16~24%

本人が続けてこう書いています。

To clarify for context — the quoted stat was referring to 80% of the 20-30% of new applicants running open source models. Still significant trend towards opensource

「依然としてオープンソースへの明確な傾向がある」という結論は変わっていません。でも、「80%」と「16~24%」では、話のスケールが全く違う。

現代ビジネスの記事は、2026年4月23日の時点でも、この訂正ツイート(記事公開の5ヶ月前に出ていたもの)を踏まえずに発言だけを切り取っている。Casadoは2026年に入ってからもPodcast出演や別の発言で中国モデル普及の議論を続けていますが、16~24%ラインを覆す数字は出していませんLatent Space podcast 他での発言をリサーチ済み)

「言っていないことを報じた」わけではなく、「言ったうちの一部だけを切り取った」。これが嘘ではない嘘の一つめの構造です。

ここからが、もっと面倒な話

ただ、「Casadoが16~24%と言ったから、実際は16~24%で打ち止め」と結論づけるのは、僕自身も最初にやりかけた早い判断でした。

リサーチを続けると、別の数字が出てきたんです。

指標母集団数値時点
Casado発言:ピッチ時の採用率a16zに売り込みに来るスタートアップ全体16~24%2025/11
OpenRouterトラフィックシェアOpenRouter経由の全APIコール45〜61%2026/2〜4
Hugging Face 週次DLシェアHugging Face 全体中国17.1% / 米国15.86%2025/8
Menlo Ventures エンプラAI調査大企業本番採用独立項目として掲載なし2025/12

OpenRouter の 2026年4月ランキングでは、中国モデル合算で全トークンの 45〜51.2% を占めています。2026年2月時点では Dataconomy報道で61%という数字も出ている。2024年10月は1.2%だったことを考えると、18ヶ月で数十倍の急伸です。

一方で、Menlo Ventures の2025 State of Generative AI in the Enterprise レポート(2025年12月公開)では、エンタープライズAI市場370億ドルの中で Anthropic 40%、OpenAI 27%、Google 21% と米系が独占。中国モデルのシェアは独立項目として掲載されるレベルに達していない

つまり、指標を切り替えると、同じ「中国モデル」の普及度がこれだけ違って見える。

利用層普及比率
スタートアップが本番プロダクトの基盤に選ぶ(Casado基準)16~24%
開発者がアグリゲータで叩く API コール45〜61%
大企業が本番採用独立項目に立たないレベル

現代ビジネスの記事の「80%」は、どの指標を指しているのかすら曖昧なまま強い数字だけが一人歩きしている状態です。これが嘘ではない嘘の二つめの構造—指標の切り取り

僕の解釈

この3つの指標は、それぞれ違う現実を映しています。

OpenRouterの45〜61%が示しているのは、個人開発者と小規模チームの「試す/遊ぶ/コスト最適化する」段階での中国モデルの浸透。Casadoの16~24%が示しているのは、「プロダクトの基盤に据える」段階での採用率。そして Menlo の調査が示しているのは、「エンタープライズが本番で賭ける」段階では中国モデルがまだ独立項目に立てないという現実。

普及は段階的で、個人・小規模 → スタートアップ本番 → エンタープライズの順に降りていく。2026年4月時点では、「個人・小規模の試用」までは中国モデルが半分近くに達したが、「スタートアップの本番基盤」では16~24%、「エンタープライズ本番」は一桁レベル、というグラデーションがある。

「シリコンバレーが乗り換え始めている」というフレーズが間違いとまでは言えません。でもどの層の話かを明示しないと、個人開発者が自分の判断材料として使うには粗すぎる。これが僕が検証を経て辿り着いた見方です。


嘘ではない嘘 ②:「1/7のコスト」はAPI同士の比較

次に気になっていた「Kimi K2.5はClaude Opusの1/7のコスト」という数字。これも検証リサーチしました。

2026年4月時点のAPI価格を並べてみます。

モデル / プロバイダーInput $/M tokensOutput $/M tokens
Claude Opus 4.7$5.00$25.00
Claude Sonnet 4.6$3.00$15.00
Claude Haiku 4.5$1.00$5.00
Kimi K2.5 / Fireworks AI$0.60$3.00
Qwen3-235B-A22B / Together AI$0.60$0.65
Qwen3-235B-A22B / Fireworks AI$0.22$0.88
DeepSeek V3.1 / Together AI$0.60$1.70

実際に計算すると、Claude Sonnet 4.6 の output 15ドルを Kimi K2.5 の 3ドルで割ると5倍差。Claude Sonnet 4.6 の 15ドルを Qwen3-235B(Together AI)の 0.65ドルで割ると約23倍差。記事の「1/7」は中間値あたりで、上下の振れ幅はもっと大きい。

でも、価格の倍率そのものよりも、この表が見せている事実のほうが大事だと思いました。この比較は、全部API従量課金同士です。

僕が払っているのは Claude Max の月100ドル定額サブスク。別の経済圏なんですよ。

Claude Maxで5時間ウィンドウあたり数百メッセージ、1週間のリセット制限つきという使い放題に近い構造は、API換算すると実効単価が極端に低くなるケースがあります。長文コンテキストを何度も回すエージェント用途だと、API従量課金で同じ作業をやれば月額は数百ドルを軽く超える。

だから「APIで1/7」と言われても、サブスク定額の個人にはそのまま意味を持たない。Claude Maxを使い倒している個人にとっては、すでに実効単価がKimi APIより安くなっている可能性がある。

ここが、Casado発言の訂正と並ぶ2つめの「嘘ではない嘘」でした。API従量課金同士で比較すれば、「1/7」は本当。ただ、その比較は個人の判断材料としてはそのまま使えない。


僕が立てたもう一つの仮説:Anthropicの資本力が弱まる説

ここまでは、記事の数字の検証でした。でも記事を読んだ直後、僕は自分でもう一つ仮説を立てていました。

「法人API顧客が中国モデルに流れていけば、Anthropicの収益が圧迫される。結果として、個人向けサブスクの値上げやレート制限の強化として波及するのでは?」

この仮説も一次ソースで検証しました。結果は、ほぼ棄却です。

Anthropic は3倍成長の真っ只中

Anthropic Series G発表(2026年2月12日)とその後の報道を時系列で並べます。

時期ARR補足
2024/12$1B
2025年半ば$4B
2025年末$9B
2026/2$14BSeries G 調達、評価額 $380B
2026/4$30B4ヶ月で3倍化

これは「収益が圧迫されている」会社の数字ではありません。むしろ需要に供給が追いついていない会社の数字です。

値上げどころか、Claude自体が値下げしている

料金側も調べました。

項目変化出典
Claude Opus API単価旧 $15/$75 → Opus 4.7 は $5/$25(67%値下げ)Anthropic公式プライシング
Claude Max サブスク料金$100/$200 はローンチ以降据え置き公式ヘルプ
Pro から Claude Code を外すテスト2026年4月22日開始、新規Pro登録の約2%限定と Anthropic 自身が量を限定The Register

要するに、長期トレンドは値下げ方向で、短期の制限強化は「お金が足りない」ではなく「GPUキャパが足りない」なんです。

実態は「需要超過による配給制化」

Claude Codeの週次レート制限導入(2025年8月28日)も、ピーク時セッション制限強化(2026年3月26日)も、Anthropicは繰り返し「影響は5%未満」「新規登録の2%限定」と対象を狭める言い方をしています。

これは「離脱を防ぐための値下げ」でも「顧客減を補う値上げ」でもなく、「需要が供給を上回っているので配給制に近づける」動きとして読むのが自然。僕自身が4月11日にClaude Codeはいつの間にか「ツール」じゃなくなっていたと書いたインフラ化は、ここまで進んだ結果、キャパシティが需要を制約するようになった、ということでもあります。

ただし、料金圧力は既に法人側に出ている

ここまで「値下げ/据え置き/配給制」と整理しましたが、リサーチを進めるともう一つの方向性が見えてきました。

The Information 2026年4月15日の報道によれば、AnthropicはClaude Enterpriseの料金体系を、フラット$200/seat から「$20/seat + 従量課金」へ切り替えています。実施は2025年11月、4月の契約更新で顕在化したとのこと。Anthropic広報も on-record でコメントしており、理由として「Claude Code の週次アクティブユーザーが1〜2月で倍増し、複雑なタスクで長時間稼働するコストがマージンを圧迫している」と説明されています。

つまり、個人向けサブスクは据え置き/値下げ方向だが、法人向けは既に実質値上げに踏み切っている。同じAnthropicの中で、層によって逆方向の動きが起きていた。

加えて、2026年4月22日のPro($20)からClaude Codeを外す試験では、Anthropic Head of Growth の Amol Avasare が X でこう発言しています。

usage has changed a lot and our current plans weren’t built for this

「使われ方が大きく変わってきていて、現行プランはそれを想定して作られていない」という意味です。新規Pro登録の2%限定で、ランディングとdocsの一斉更新は誤りとして巻き戻されたものの、「現行プランは今の使われ方に合わなくなった」という再設計の意図は明確です。

さらに4月23日には、Anthropic自身がClaude Code 品質低下の公式postmortemを公開し、3月〜4月にかけての3件のバグ(reasoning effort既定値の引き下げ、thinkingクリアのバグによる cache miss、ツール間テキストの語数制限)を認めて、全Maxサブスクライバーの利用制限を補償リセットしました。AI研究家の今井翔太氏が2026年4月24日のTBS CROSS DIG出演で「クロードコードの調子がどうも最近悪い」「アンソロピック直近でクロードの値上げをするみたいな話も出てきている」と発信したのは、この一連の動き(The Information報道、Pro外し試験、品質低下postmortem)を踏まえてのことだと思います。

再整理:層ごとに、料金圧力の方向が違う

これらを踏まえて、Anthropicの料金動向を層別に整理し直します。

2026年4月時点の動き方向
API(個人・小規模)Opus 4.7 で旧 $15/$75 → $5/$25(67%値下げ)値下げ
Pro / Max サブスク(個人)名目料金は据え置き、ただしClaude Code部分の試験的剥離あり据え置き+上位プラン誘導
Claude Enterprise(法人)フラット$200/seat → $20/seat + 従量課金実質値上げ
Claude Code 第三者ツール接続サブスクから分離・別課金へ実質値上げ

つまり「Anthropic は値下げ/値上げ」という単線の議論は、もう成立しない個人と小規模ユースは値下げ・据え置きで温存し、法人と高負荷ユースで回収するという選別が始まっている、と見るのが2026年4月時点の正確な像です。

仮説①の「個人サブスクに値上げ・制限強化として波及する」は、個人サブスクの名目価格についてはまだ棄却できます。一方で「Anthropic はあらゆる層で値下げ/据え置きトレンド」という単純化は、4月15日のThe Information報道で部分的に修正が必要になりました。個人で見るか、法人で見るかで、答えが正反対になる

ただし、これは2026年4月時点のスナップショットにすぎません。AI経済の動きはこのところ激しく、ARR も料金も半年単位で大きく動いています。「個人サブスクへの直接波及はまだ起きていない」は維持できる結論ですが、半年後にも同じ答えが出るとは限らない。法人側で先に始まった料金圧力が、Pro/Max のキャップ調整やClaude Code剥離のような形で個人側にどこまで降りてくるかは、定期的に同じ検証をし直す前提で見続ける必要があります。


じゃあローカル運用なら?現実のハードウェア

ここまでで、「慌てて中国モデルに乗り換える根拠」はほぼ消えました。でも、技術的な練習として、あるいは特定のユースケース(オフライン・データ主権・検閲耐性)のためにローカル運用を始める価値はあるかもしれません。

では、個人が現実的にどのモデルを、どんなハードで動かせるのか。ここも一次ソースをあたりました。

ハードモデル量子化速度ソース
Mac Studio M3 Ultra 512GB($9,499)Qwen3-235B-A22BMLX 4-bit24 tok/sMacStories(Viticci)
Mac Studio M3 Ultra × 2台Kimi K2 Thinking(1T)native INT415 tok/sAwni Hannun(MLX lead)
Mac Studio M3 Ultra × 4台(約$40,000)Kimi K2 Thinking(1T)native INT425 tok/sCreative Strategies
RTX 4090 24GB(中古 $2,000前後)Qwen3-30B-A3BQ4_K_M120+ tok/sllama.cpp ベンチ

つまり、Qwen3-235Bクラスなら9,499ドルの Mac Studio 1台で24 tok/s。Claude Sonnet同等感覚の推論がローカルで動くラインに届きました。Kimi K2.5(1T)も Mac 4台クラスタなら動く—約40,000ドルかかりますが、H100 8枚構成(4,000〜5,000万円)よりも1桁安い。

ただし2つの致命傷があります。

致命傷 ①:512GB構成が2026年3月に販売停止

DRAM供給危機で、Apple が Mac Studio の 512GB 構成オプションを2026年3月に販売停止しました。現在は256GBが上限。これだと Qwen3-235B をフル量子化で動かすのは厳しくなります。物理的な入手性の問題が出てきた。

致命傷 ②:長文コンテキストで速度が10倍遅くなる

Billy Newportの検証記事で、Mac Studio M3 Ultra は「40〜50kトークンのコンテキストを入れると、短文時の10倍遅くなる」という報告があります。Apple の GPU 性能がボトルネックで、RAM 容量では解決できない構造的問題です。

エージェント用途で長い会話履歴を維持する場合、これは致命的。Claude CodeをローカルLLMで置き換えようと思うと、ここで詰まります。

経済計算:Claude Max vs Mac Studio

素朴に電卓を叩いてみます。Mac Studio M3 Ultra 512GB は9,499ドル、Claude Max の上位プラン(Max 20x)が月200ドル。ハード代をサブスク換算で取り戻すには、約48ヶ月、つまり4年かかる計算です。

4年間、Mac Studioが陳腐化せず、長文でも速度が落ちず、Claude Code代わりに使えるなら、損益分岐はあります。

しかし、以下のような要素が考えられます。

要素内容
ハード陳腐化Apple Silicon は年々更新(M4 Ultra・M5 Ultra が出てくる)
API値下げトレンドOpus は67%値下げ済み、今後さらに下がる可能性
長文スローダウン10倍遅くなりエージェント用途で実用性に疑問
入手性512GB 構成が販売停止済み

これを考えると、個人開発者がClaude Maxを解約してMac Studioに移行する経済合理性は、現時点では成立していない

現時点の結論はシンプルで、Claude Max を使い続ける一択です。ローカル推論の本格運用は、ハードの損益分岐に届かない限り深追いしない。これが2026年4月時点での現実解だと思います。


ローカル運用=安全、は条件付きだった

このリサーチを始める前、僕は自分自身に「ローカル運用なら情報流出経路は物理的に閉じる」と断言していました。これも一次ソースで検証すると、条件付きでした。とくに中国モデルを使う場合、汎用のセキュリティ論点に加えて、重みへの仕込み・検閲バイアス・越境データと中国国家情報法という中国固有の3層の懸念が重なります。

汎用の論点:重みとコードの両経路

まず、特定国のモデルに限らない一般論から。

Anthropicが2024年1月に公開したSleeper Agents論文は、重みのみを配布しても、除去不能なバックドアを仕込むことができることを理論的に示しました。SFT・RL・敵対的学習の3つの安全化手法すべてで、一度仕込まれたバックドアは除去できず、むしろ敵対的学習はトリガーの隠蔽を学習させてしまうという結論です。つまり、「モデルの重みは静的なデータだから安全」というのは過度の単純化で、理論上は重み自体に悪意を仕込める。

ただ、理論と実務では優先順位が違います。実務で圧倒的に危険なのは、Hugging Faceのリポジトリに同梱されるPythonコードのほうです。trust_remote_code=True で実行するとあなたのマシンで任意のPythonコードが動くし、JFrog が発見した悪意あるMLモデルは Hugging Face 上で100件超、ReversingLabs の nullifAI 事例(2025年2月)では picklescan を回避する攻撃まで見つかっている。

ここまではどの国のモデルでも成立する話で、対策は次の汎用3条件で足ります。

1. safetensors または GGUF を使う(pickle 経路を断つ。safetensors はヘッダ+生テンソルのみで実行コード混入が物理的に不可能)
2. trust_remote_code=False で動かす(モデルカードで remote code を要求する場合は採用保留)
3. モデル提供元・同梱ファイルの素性を確認する(ダウンロード数・署名・リポジトリ履歴)

中国モデル固有の懸念 ①:検閲バイアスが重みに焼き込まれている

ここから中国モデル固有の話に入ります。

中国系モデルには訓練段階で体制側の検閲ポリシーが織り込まれていて、それが重みに焼き込まれているという実証データがあります。PETS 2025の査読論文は中国語プロンプトでの品質劣化を実証。Adam Holter の ChinaBench 検証では、天安門・台湾・習近平といったセンシティブトピックでの compliance 率が DeepSeek v3.2 で 0%、Kimi K2.5 と Qwen3 で 33% という数字が出ています。

これは「API 直叩きだから検閲される」ではなく、ローカルで動かしても検閲挙動が再現される性質です。重みに焼き込まれているから。

ただし反証もあります。Meta Llama も自社で「左派的な偏り」を認めておりarXiv:2505.04393「中国モデルだけが偏る」わけではない。また Multiverse Computing が DeepSeek R1 から検閲層を剥離した “Slim” バージョンを公開した事例もありMIT Technology Review 2025-11 関連)検閲は「剥がせる層」である可能性も示唆されています。

実務的には、コード生成・翻訳・要約では影響が薄く、政治・法務・歴史の判断補助には使わないという業務文脈の切り分けが必要。

中国モデル固有の懸念 ②:越境データと中国国家情報法

これは API直叩き時のみ成立する論点ですが、個人SIerとして押さえておくべき重要事項です。

個人情報保護委員会(PPC)2025年2月3日の情報提供デジタル庁 2月6日の業務利用注意喚起で、日本政府は「DeepSeek にはデータが中国サーバーに保存され、中国国家情報法が適用される」と明示しています。同種の規制は米国連邦法案 HR 1121、複数の米国州、イタリア Garante(2025-01-30 即時停止命令)、EU 各国に広がっています。

個人情報(問い合わせフォームの内容など)を中国製AIのSaaSに流すと、個人情報保護法27条(第三者提供)・28条(越境移転)の説明責任が一気に重くなる。個人SIerとして中国モデルAPIを業務で使うのは避けるべき、というのが政府公式文書の示す方向性です。

一方でローカル運用(safetensors/GGUF、自分のマシン完結)なら、このデータ流出経路は成立しない。ここが API とローカルを分ける最大の実務的差分です。

中国モデル固有の懸念 ③:重みへの仕込みの可能性

①が「公然とした検閲の焼き込み」だとすると、③は公然としない仕込みの話です。Sleeper Agents 論文が示したように、理論上は特定トリガーで挙動を変える仕込みを重みに埋め込むことができる。これが中国モデル固有なのは、配布元が中国企業(Alibaba、Moonshot、High-Flyer)で、米国・EU・日本からの第三者監査が十分に届かないという地政学的理由です。

ただし2026年4月時点で、Qwen・Kimi・DeepSeek に対する具体的なバックドア事例は報告されていません。第三者のテストコミュニティ(Hugging Face、llama.cpp、MLX)での使用実績が積み上がっていることが、一種の集合監査になっている状況です。個人SIer的には、「理論上のリスクとして意識しつつ、政府文書での言及や実害報告が出たら即撤退」というスタンスが現実解だと思います。

総合判断:中国モデルの業務利用ライン

以上3層を踏まえた僕の判断ラインは以下の通りかなと。

シチュエーション判断ライン
API 直叩き業務・クライアントデータでは使わない(国家情報法+越境移転の説明責任)
ローカル運用(safetensors/GGUF)汎用3条件を満たせば、業務文脈の切り分けを前提に使える
業務文脈コード生成・翻訳・要約・下書き叩き台はOK。政治・法務・歴史判断はNG
クライアント個人情報ローカルでも念のため Claude/GPT 側で処理(「OSSで骨格、APIで精度」の原則と一致)

この線引きで、ローカル運用のメリット(固定費圧縮の練習、オフライン性)を享受しつつ、3層の懸念を実務的に管理できます。


自問:僕の3つの仮説、どこが間違っていたか

ここまで書いてきた検証を、僕自身の仮説に対する答え合わせとして整理します。

記事を読んだ直後、僕が頭の中で組み立てていたのはこの3つでした。

仮説 ①:「Anthropicが弱まって、個人サブスクに値上げ・制限強化として波及する」
部分棄却。ARR 3倍成長、Opus 67%値下げ済み、Max名目据え置き、制限強化は「需要超過による配給制化」で説明がつく。ただしClaude Enterpriseは2025年11月に従量課金化、つまり、法人側では実質値上げが既に始まっていることが、追加リサーチで判明。「個人サブスクの名目値上げ」はまだ起きていないが、「Anthropic は値下げ/据え置き一辺倒」という単純化は成立しない。個人と法人で料金の動く方向が逆になっており、法人側の圧力が個人側にどこまで降りてくるかは継続観察が必要。

仮説 ②:「中国製でもローカル運用なら情報流出経路は物理的に閉じる」
条件付き採用。safetensors か GGUF を使用・trust_remote_code=False・業務文脈の限定、この3条件の範囲で成立。Sleeper Agents論文が示す「重み自体への仕込み」は理論上の脅威として残る。

仮説 ③:「APIの1/7という比較は、個人サブスクには直接当てはまらない別の土俵の話」
強化。Casado発言の「80%」は本人訂正で全体16~24%に縮むが、OpenRouter経由のトークンシェアで見ると45〜61%に広がる。一方でエンタープライズ本番採用では中国モデルが独立項目に立たない。つまり普及は層ごとに全く違う速度で進んでいて、「どの層の話か」を明示しないと判断材料にならない。API経済と個人経済の分断はむしろ強く確認された。

一番ダメージが大きかったのは仮説①です。「Anthropicが弱まる」という想定は、僕が記事に煽られて立てた不安ベースの仮説でした。一次ソースに当たれば、その逆(ARR 3倍成長)の現実が並んでいた。不安は数字で測ると、しばしば逆に振れる。これが今回一番の学びです。


書き終えて

「じゃあ僕も乗り換えるべき?」という問いから始まったこのリサーチは、最終的に「今の僕の環境は正解に近い」という、地味な結論に落ち着きました。

Claude Max 月100ドルを続けつつ、業務パイプラインの骨格はOSSで組み、精度が成果物の価値に直結する部分は有料APIを使う。ローカル推論の本格運用は、ハードの損益分岐に届かない限り手を出さない—この原則は、数週間前に別の検証で自分自身が辿り着いていた結論と、完全に一致していました。外から来た衝撃的な記事は、結局すでに自分が持っていた原則を補強しただけだった。

ただ、そこに到達するまでに、3つの仮説を棄却・修正することが必要だったのは事実です。検証を経ずに「シリコンバレーが乗り換えているから自分も」と判断していたら、40,000ドルの Mac Studio クラスタに踏み込んでいたかもしれない。あるいは逆に、Claude Maxを解約して中国モデルのAPI直叩きに移行し、クライアントの情報を流してしまっていたかもしれない。

今回の検証を通じて残ったのは、3つの習慣でした。

報道の数字は必ず一次ソースに当たる — Casadoの訂正ツイートが見つかるまで、並列エージェントに投げてから数分でした
API単価と個人サブスクを混同しない — この2つは別の経済圏の住人で、数字を横並びにするのは誤った比較
不安ベースで仮説を立てたら、必ず数字で検証する — 不安は逆方向に振れることがよくある

前回記事で「並列サブエージェントのリサーチ結果は数字が食い違う」と書きました。今回も初回4方向、追加で2方向のエージェントを走らせて、そこから数字を突き合わせました。その作業を挟むかどうかで、判断の質が決定的に変わる—そのことを、また一つ体感した記事でした。


FAQ

「80%が中国モデルを使っている」という数字の訂正後の正しい値は?

Martin Casado(a16zジェネラルパートナー)本人が2025年11月17日にXで訂正を出しており、「a16zに売り込みに来るスタートアップ全体で見れば 16~24%」というのが本人発言ベースの正しい値です。ただし指標を切り替えると像が変わります。OpenRouter 経由の API トークンシェアでは中国モデルが 45〜61%(2026年2〜4月)、一方で Menlo Ventures の 2025 エンタープライズAI調査では中国モデルが独立シェア項目に立たない水準。同じ「普及率」でも母集団によって数倍違うため、記事を読むときはどの層の話かを確認する必要があります。

Mac Studio M3 Ultra で Qwen3-235B を動かすのは現実的ですか?

技術的には可能で、MLX 4-bit 量子化なら 24 tokens/sec(MacStories Federico Viticci の実測)が出ます。ただし2つの制約があります。第一に、Apple が 512GB 構成オプションを 2026年3月に販売停止したため入手性に難あり。第二に、40〜50k トークンの長文コンテキストで速度が10倍遅くなるという報告があり、エージェント用途には不向き。個人用途なら RTX 4090 + Qwen3-30B-A3B(120 tok/s)のほうが現実的です。

ローカル運用なら中国モデルを使っても情報流出はないと言えますか?

条件付きで、概ね正しいです。成立条件は3つ。safetensors または GGUF フォーマットを使う(pickle 経路を断つ)、trust_remote_code=False で動かす、業務文脈を限定する(政治・法務・歴史判断には使わない)。Anthropic の Sleeper Agents 論文が示す「重み自体へのバックドア」は理論上の脅威として残りますが、実務では trust_remote_code=True や pickle ファイル経由の攻撃のほうが圧倒的に現実的リスクです。なお、API 直叩きは避けるべき—日本政府(個人情報保護委員会・デジタル庁)が DeepSeek 等に関して「中国国家情報法が適用される」と明示しています。

個人開発者が Claude Max を続ける経済合理性はありますか?

2026年4月時点では、あります。Anthropic は ARR が 10億ドル(2024年12月)から 300億ドル(2026年4月)へ3倍成長中で、API側は値下げトレンド(Opus 4.7 は旧価格比67%値下げ)。Max の月100ドル/月200ドル料金はローンチから据え置き。Claude Maxの定額使い放題を API 従量課金換算すると、ヘビーユースすればするほど実効単価が Kimi K2.5 や Qwen3 の API より下がる構造です。レート制限の強化は「収益圧迫」ではなく「需要超過による配給制化」で説明がつきます。ただし後述の通り法人側では既に料金圧力が顕在化しており、個人側へどこまで降りてくるかは継続的な観察が必要です。

「Anthropicは値上げを検討している」という見方をどう評価していますか?

層別に分けて見るのが正確です。API(個人・小規模)は Opus 4.7 で 67% 値下げ済み、Pro/Max サブスクの名目料金は据え置き、一方でClaude Enterprise(法人)は2025年11月にフラット $200/seat → $20/seat + 従量課金へ切り替えており実質値上げ。さらに The Information 2026年4月15日報道で、Claude Code 週次アクティブユーザーが1〜2月で倍増しマージンを圧迫していることが背景として説明されています。AI研究家の今井翔太氏が4月24日に「アンソロピック直近で値上げの話が出ている」と発信したのは、この法人側の動きと、4月22日の Pro から Claude Code を外す2%テスト、4月23日の Claude Code 品質低下postmortemを踏まえた発言だと思われます。「個人サブスクの名目値上げ」はまだ起きていませんが、「Anthropicが値下げ/据え置き一辺倒」という単純な見方も2026年4月時点では成立しません。

この記事が参考になったら

Share