DeepSeekとXiaomiがAPI価格を引き下げる一方で、米国の研究機関は料金を引き上げ
DeepSeekは2026年5月22日にDeepSeek V4-Proの75%割引を恒久化し、出力価格を1百万トークンあたり$0.87に固定した。Xiaomiは5月26日に続き、MiMo-V2.5のAPI価格をキャッシュ入力に対して最大99%引き下げた。Proモデルは現在、キャッシュ入力で1百万トークンあたり$0.0036となっている。価格引き下げの要因は、推論フレームワークにおける技術的最適化とKVキャッシュのアーキテクチャにある。これらの値下げは、OpenAIが4月下旬のローンチ時にGPT-5.5の出力価格を1百万トークンあたり$30へ2倍にしたこと、そしてAnthropicが同一の入力テキストで最大35%多くのトークンを生成する新しいトークナイザを搭載したClaude Opus 4.7を出荷したことと時期を同じくしており、レートカードが据え置きでも実コストが膨らむ可能性がある。
恒久的な価格変更の発表
DeepSeek V4-Proは現在、1百万トークンあたりの入力が$0.435、出力が$0.87である。以前は期限切れ予定だった75%割引が、今週早めに恒久化された。XiaomiのMiMo-V2.5-Proは、5月26日の引き下げ後に同じ$0.435/$0.87(1百万トークンあたり)に揃えている。MiMo-V2.5のキャッシュヒットは1百万トークンあたり$0.0036まで下がった。Xiaomiの課金アップグレードにより、ユーザーは同じ価格で5〜8倍多くのトークンを利用できる。$100のMaxプランでは、1.6 billionから82 billionトークンになった。
価格引き下げの裏にある技術実装
XiaomiのMiMoチーム責任者で、DeepSeek-V2を共同で構築した元DeepSeek開発者のFuli Luoは、5月27日にX上で技術的な説明を公開した。推論フレームワークは、SWA向けに階層型KVキャッシュ最適化をサポートするようになった。プロダクションの推論エンジンのテストでは、この最適化によりキャッシュされたトークン容量が約5倍になることが示されている。システムは、ストレージと処理コストを約80%削減する。Luoは、「これらの新しく引き下げられたAPI価格で、当社のプロダクション推論エンジンはほぼフル稼働の状態にあり、それでも実質的にトントンにできる」と書いた。
DeepSeek V4は、2種類のインタリーブされた注意(attention)タイプを使う。1つは選択的注意のために4トークンごとに圧縮し、もう1つはグローバルな文脈のために128トークンごとに折りたたむ。コンテキストが100万トークンのとき、V4-ProのKVキャッシュは先代の10%のサイズになる。単一トークンの推論は、以前の計算コストの27%で動作する。
パフォーマンス指標と比較価格
DeepSeek V4-ProはSWE-Verifiedで80.6%を記録した。同じベンチマークで実際のGitHubの課題解決を測定するClaude Opus 4.6は80.8%だった。2つのモデル間の価格差は出力で34倍。DeepSeek V4-Proは1.6 trillionパラメータのモデルである。
Claude Opus 4.7は、入力1百万トークンあたり$5、出力1百万トークンあたり$25である。GPT-5.5は出力1百万トークンあたり$30で、先代のレートの2倍。Gemini 2.5 Proは入力が1百万トークンあたり$1.25、出力が$10。MiniMax M2.7は入力が$0.30、出力が$1.20(いずれも1百万トークンあたり)。Moonshot AIのKimi K2.5は、SWE-bench Verifiedで76.8%を持ち、入力$0.60、出力$2.50で動作する。Z.AIのGLM-5.1は、2026年Q2のコーディングベンチマークでClaude Opus 4.6を上回った。中国のフロンティア・モデル4つが5月上旬の12日間のうちに出荷され、いずれもOpus 4.7のトークンあたりコストの3分の1未満だった。DeepSeek V4-Proのキャッシュ入力トークンのコストは、1百万トークンあたり$0.003625である。
プロバイダー間での市場ポジショニング
2026年Q2における中国と米国のフロンティア・モデル間の価格差は、モデル比較によって15倍から30倍の範囲にある。これはキャッシュ割引が入る前の基準値である。AnthropicはClaude Opus 4.7のレートカードを据え置いたが、同じ入力テキストで最大35%多くのトークンを生成できる新しいトークナイザを搭載して出荷した。