**_AWSインフラの障害とKafkaの復旧問題により、一時的にCoinbase全体の取引が停止しました。_**Coinbaseは5月7日に大規模なサービス障害を経験し、複数のプラットフォームで取引、取引所アクセス、顧客残高の更新が妨げられました。問題はスポット市場、デリバティブ、Primeサービス、国際取引運営に影響し、数時間にわたって続きました。エンジニアは後に、この問題の原因を米国のAWSデータセンター内の冷却システムの故障と特定しました。Coinbaseは、顧客資金は安全であり、データの喪失もなかったと述べています。Kafkaの復旧問題がCoinbaseの障害を深刻化----------------------------------------------Coinbaseは、監視システムが最初にUTC時間23:50頃に連鎖的な見積もり失敗を検知したと明らかにしました。その後、複数のSev1インシデントが続き、エンジニアリングチームによる緊急対応手順が発動されました。AWS us-east-1にホストされているラックの一部内の温度上昇に伴い、取引所のコアインフラに関連する内部システムが次々に故障し始めました。> 昨日@coinbaseは、取引、取引所アクセス、残高更新に影響を与える数時間にわたるサービス障害を経験しました。こちらはCoinbaseエンジニアリングによる最初の見解です。何が起き、どのように復旧し、何に取り組んでいるのか。> > 2026年5月7日 23:50 UTC頃、私たちの…> > — rob (@rwitoff) 2026年5月8日Coinbaseのエンジニアによると、ハードウェアの故障が取引所のマッチングエンジンに接続されたシステムを襲いました。そのエンジンは注文を処理し、Coinbaseの各市場の注文帳を維持します。影響を受けた施設内のインフラ問題により、一部のノードだけが稼働状態となり、クォーラムに到達できず、一時的に小売および機関投資家向けの取引が停止しました。エンジニアはまた、内部メッセージングに使用される分散Kafkaクラスターに関わる問題にも直面しました。Coinbaseは、これらのクラスターが毎日数テラバイトのデータを処理し、データセンターの障害時でも稼働を維持するよう設計されていると述べました。復旧の保証は障害中に失敗し、チームは手動でパーティションを交換用ハードウェアブローカーに復元する必要がありました。専用ハードウェアの故障が復旧を遅らせる----------------------------------------顧客はKafkaのレプリケーション復旧中に残高更新の遅延を経験しました。Coinbaseは、システムが追いつけば残高は自動的に同期されると述べました。会社の代表者は、障害中に顧客や取引データが失われることはなかったとも付け加えました。自動復旧ツールは、影響を受けたゾーンに関連する約10のKubernetesクラスターから負荷を排出しました。ほとんどの内部サービスは、エンジニアが問題を特定して隔離してから約30分以内に復旧しました。取引所のマッチングエンジンとKafkaインフラに直接結びついたシステムは、両方とも専用ハードウェアとストレージ構成に依存していたため、復旧により時間がかかりました。環境を安定させた後、Coinbaseは段階的に市場を再開しました。最初はキャンセルのみのモードに移行し、その後、製品状態を監査しました。次に、市場はオークションモードに入り、その後、取引所全体で完全な取引再開となりました。Coinbaseは、数時間にわたるプラットフォーム障害中にデータが失われなかったと発表----------------------------------------------------------------Coinbaseは、重要な取引所インフラの一部が単一の可用性ゾーン内に集中していたことを認めました。エンジニアは、フェイルオーバーシナリオ用にスタンバイシステムが用意されていたと述べましたが、その隔離措置は障害時に失敗しました。これにより、障害の期間と範囲が意図したよりも長く、広がる結果となりました。同社の幹部は、復旧過程での内部調整を高く評価しました。エンジニアリングおよびオンコールチームは、制約されたインフラ条件下で修正をテスト・検証しながら、確立された災害復旧手順に従ったと報告されています。Coinbaseは、一時的にアカウントや取引サービスへのアクセスを失った顧客に謝罪しました。幹部は、今後数週間以内に完全な根本原因分析を公開し、同様の障害を防ぐための信頼性向上策も計画していると述べました。
Coinbaseは大規模な取引所事故後の完全な根本原因分析を約束
AWSインフラの障害とKafkaの復旧問題により、一時的にCoinbase全体の取引が停止しました。
Coinbaseは5月7日に大規模なサービス障害を経験し、複数のプラットフォームで取引、取引所アクセス、顧客残高の更新が妨げられました。問題はスポット市場、デリバティブ、Primeサービス、国際取引運営に影響し、数時間にわたって続きました。エンジニアは後に、この問題の原因を米国のAWSデータセンター内の冷却システムの故障と特定しました。Coinbaseは、顧客資金は安全であり、データの喪失もなかったと述べています。
Kafkaの復旧問題がCoinbaseの障害を深刻化
Coinbaseは、監視システムが最初にUTC時間23:50頃に連鎖的な見積もり失敗を検知したと明らかにしました。その後、複数のSev1インシデントが続き、エンジニアリングチームによる緊急対応手順が発動されました。AWS us-east-1にホストされているラックの一部内の温度上昇に伴い、取引所のコアインフラに関連する内部システムが次々に故障し始めました。
Coinbaseのエンジニアによると、ハードウェアの故障が取引所のマッチングエンジンに接続されたシステムを襲いました。そのエンジンは注文を処理し、Coinbaseの各市場の注文帳を維持します。影響を受けた施設内のインフラ問題により、一部のノードだけが稼働状態となり、クォーラムに到達できず、一時的に小売および機関投資家向けの取引が停止しました。
エンジニアはまた、内部メッセージングに使用される分散Kafkaクラスターに関わる問題にも直面しました。Coinbaseは、これらのクラスターが毎日数テラバイトのデータを処理し、データセンターの障害時でも稼働を維持するよう設計されていると述べました。復旧の保証は障害中に失敗し、チームは手動でパーティションを交換用ハードウェアブローカーに復元する必要がありました。
専用ハードウェアの故障が復旧を遅らせる
顧客はKafkaのレプリケーション復旧中に残高更新の遅延を経験しました。Coinbaseは、システムが追いつけば残高は自動的に同期されると述べました。会社の代表者は、障害中に顧客や取引データが失われることはなかったとも付け加えました。
自動復旧ツールは、影響を受けたゾーンに関連する約10のKubernetesクラスターから負荷を排出しました。ほとんどの内部サービスは、エンジニアが問題を特定して隔離してから約30分以内に復旧しました。
取引所のマッチングエンジンとKafkaインフラに直接結びついたシステムは、両方とも専用ハードウェアとストレージ構成に依存していたため、復旧により時間がかかりました。
環境を安定させた後、Coinbaseは段階的に市場を再開しました。最初はキャンセルのみのモードに移行し、その後、製品状態を監査しました。次に、市場はオークションモードに入り、その後、取引所全体で完全な取引再開となりました。
Coinbaseは、数時間にわたるプラットフォーム障害中にデータが失われなかったと発表
Coinbaseは、重要な取引所インフラの一部が単一の可用性ゾーン内に集中していたことを認めました。エンジニアは、フェイルオーバーシナリオ用にスタンバイシステムが用意されていたと述べましたが、その隔離措置は障害時に失敗しました。これにより、障害の期間と範囲が意図したよりも長く、広がる結果となりました。
同社の幹部は、復旧過程での内部調整を高く評価しました。エンジニアリングおよびオンコールチームは、制約されたインフラ条件下で修正をテスト・検証しながら、確立された災害復旧手順に従ったと報告されています。
Coinbaseは、一時的にアカウントや取引サービスへのアクセスを失った顧客に謝罪しました。幹部は、今後数週間以内に完全な根本原因分析を公開し、同様の障害を防ぐための信頼性向上策も計画していると述べました。