Millionen von Websites und Diensten hatten am 18. November 2025 um 06:58 UTC Verbindungsprobleme, die hauptsächlich auf einen internen Fehler des Infrastrukturproviders Cloudflare zurückzuführen waren. Das Unternehmen gab später am Tag eine vollständige Erklärung des Vorfalls ab und machte transparente Angaben dazu, wie dieser technische Fehler zustande kam, wie er behoben wurde und welche Vorsichtsmaßnahmen in Zukunft getroffen werden.
Probleme treten auf: Dienstleistungen in vielen Teilen der Welt lahmgelegt.
Cloudflare hatte am 18. November um 06:58 UTC (ca. 14 Uhr taiwanesischer Zeit) einen Ausfall, bei dem viele Websites, die Cloudflare CDN und DNS-Dienste nutzen, darunter große Handelsplattformen, Nachrichtenmedien und Webanwendungen, nicht mehr erreichbar waren. Diese Unterbrechung dauerte fast 40 Minuten und führte dazu, dass Websites in einigen Regionen vollständig nicht geladen werden konnten, und Benutzer hatten Schwierigkeiten, über die API mit den Backend-Servern zu interagieren.
Das Unternehmen wies darauf hin, dass es sich bei diesem Vorfall um eine Unterbrechung auf Netzwerkebene handelt, die seine globale Serviceinfrastruktur betrifft und nicht um ein Problem eines einzelnen Rechenzentrums oder einer Region.
Ursache des Problems: BGP-Konfigurationsfehler verursachen Probleme
Cloudflare erklärt weiter, dass die Unterbrechung auf einen Fehler bei der Änderung der Border Gateway Protocol (BGP) Konfiguration zurückzuführen ist. BGP ist eines der Kernprotokolle zur Steuerung des Internetverkehrs und wird verwendet, um globalen Netzwerken mitzuteilen, wie sie zu einem bestimmten Ziel routen sollen.
Der ursprüngliche Zweck bestand darin, die internen Routing-Broadcast-Richtlinien zu aktualisieren und die Effizienz der Infrastruktur zu steigern, jedoch führte ein manueller Push mit fehlerhaften Einstellungen dazu, dass bestimmte Cloudflare-IP-Präfixe nicht mehr von anderen ISPs über BGP zugänglich waren, was gleichbedeutend damit ist, dass die Routing-Pfade dieser Dienste im Internet “verschwunden” sind.
Dieser Fehler wurde im internen Automatisierungsbereitstellungstool nicht sofort erkannt, sodass er vor dem Auftreten der Auswirkungen weitreichend in mehrere Regionen verteilt wurde.
Notfallwiederherstellung aktivieren: Fehlerhafte Einstellungen schnell zurücksetzen
Das Ingenieurteam von Cloudflare erkannte die Anomalie innerhalb weniger Minuten nach dem Vorfall und leitete umgehend das Wiederherstellungsverfahren ein. Sie begannen etwa um UTC 07:15 mit dem Zurückziehen der fehlerhaften BGP-Policy-Einstellungen und schlossen die Wiederherstellung um UTC 07:28 ab, sodass die meisten Dienste zu diesem Zeitpunkt wieder normal funktionierten.
Insgesamt dauerte die Unterbrechung etwa 30 bis 40 Minuten, und gemäß der von Cloudflare bereitgestellten Zeitleiste wurde der Dienst um 07:28 UTC vollständig wiederhergestellt.
Warum konnten Automatisierung und Schutzmechanismen das Problem nicht verhindern?
Cloudflare räumt ein, dass dieser Fehler auf Verbesserungsbedarf in seinen internen Bereitstellungsprozessen hinweist. Der ursprüngliche Automatisierungsprozess hatte “Sicherheitsmechanismen”, die fehlerhafte BGP-Ankündigungen verhindern konnten, aber dieses Update wurde auf einer niedrigeren Ebene der Systemkonfiguration implementiert und nicht in den Schutzbereich einbezogen.
Darüber hinaus sollte diese Änderung ursprünglich nur auf bestimmte experimentelle Netzsegmente angewendet werden, hat jedoch versehentlich den Bereich der Hauptproduktionsumgebung betroffen. Sie haben bereits damit begonnen, die Definition des Anwendungsbereichs des Bereitstellungssystems zu korrigieren und die automatische Erkennung von fehlerhaften Richtlinien zu verbessern.
Cloudflare verpflichtet sich zur zukünftigen Verbesserung
Cloudflare gab an, folgende Maßnahmen zu ergreifen, um ähnliche Vorfälle in Zukunft zu vermeiden:
Stärkung der Validierungsmechanismen für BGP-bezogene Konfigurationen, um unerwartete Routenbroadcasts zu vermeiden;
Klare Unterscheidung der Berechtigungen für Test- und Produktionsumgebungen;
Erhöhung des automatisierten Warnsystems, das in der Lage ist, innerhalb von Sekunden auf anomale Netzwerkverkehre zu reagieren;
Stärkung der Überwachung interner Änderungsprüfungen und manueller Betriebsabläufe.
Das Unternehmen betont auch, dass es die Transparenz weiterhin erhöhen wird und im Falle von Störungen in Zukunft schnell relevante Informationen veröffentlichen wird, um das Vertrauen der Nutzer aufrechtzuerhalten.
Die Verantwortung und Herausforderungen von Internetgiganten
Cloudflare ist einer der größten Anbieter von Internetinfrastruktur weltweit, dessen Dienstleistungsangebot wichtige Netzkomponenten wie CDN, DNS, Netzwerksicherheit und DDoS-Schutz umfasst. Ein einmaliger BGP-Konfigurationsfehler kann zu einem globalen “digitalen Blackout” führen. Obwohl dieses Ereignis schnell behandelt wurde, verdeutlicht es dennoch die Risiken und Herausforderungen, die mit der hohen Zentralisierung der Internetinfrastruktur verbunden sind.
Dieser Artikel über Cloudflares globale “digitale Abschaltung”: Offizielle Berichte enthüllen die Details des Ausfalls vom 18. November erschienen zuerst auf Chain News ABMedia.