เว็บไซต์และบริการทั่วโลกหลายล้านแห่งเกิดปัญหาการเชื่อมต่อในวันที่ 18 พฤศจิกายน 2025 เวลา 06:58 UTC สาเหตุหลักมาจากข้อผิดพลาดภายในของผู้ให้บริการโครงสร้างพื้นฐานเครือข่าย Cloudflare บริษัทดังกล่าวได้ออกแถลงการณ์เกี่ยวกับเหตุการณ์อย่างครบถ้วนในวันนั้น โดยชี้แจงอย่างโปร่งใสเกี่ยวกับวิธีที่เกิดความล้มเหลวทางเทคนิคนี้ วิธีการจัดการ และมาตรการป้องกันในอนาคต.
ปัญหาเกิดขึ้น: บริการทั่วโลกหลายแห่งล่ม
Cloudflare เกิดปัญหาเมื่อวันที่ 18 พฤศจิกายน เวลา 06:58 UTC (ประมาณเวลา 14:00 ตามเวลาประเทศไทย) ส่งผลให้เว็บไซต์จำนวนมากที่ใช้บริการ CDN และ DNS ของ Cloudflare รวมถึงแพลตฟอร์มธุรกิจขนาดใหญ่ สื่อข่าว และเว็บแอปพลิเคชัน ไม่สามารถเข้าถึงได้ตามปกติ เหตุการณ์หยุดชะงักนี้กินเวลานานเกือบ 40 นาที ทำให้เว็บไซต์ในบางพื้นที่ไม่สามารถโหลดได้เลย และผู้ใช้ไม่สามารถโต้ตอบกับเซิร์ฟเวอร์ด้านหลังได้อย่างราบรื่นผ่าน API.
บริษัทชี้แจงว่าเหตุการณ์นี้เป็นการหยุดชะงักในระดับเครือข่าย ซึ่งส่งผลกระทบต่อโครงสร้างพื้นฐานบริการทั่วโลกของพวกเขา แทนที่จะเป็นปัญหาในศูนย์ข้อมูลหรือภูมิภาคใดภูมิภาคหนึ่ง
ปัญหาต้นเหตุ: ความผิดพลาดในการตั้งค่า BGP ที่ทำให้เกิดปัญหา
Cloudflare อธิบายเพิ่มเติมว่าการหยุดชะงักครั้งนี้เกิดจากความผิดพลาดในการเปลี่ยนแปลงการตั้งค่า Border Gateway Protocol (BGP) BGP เป็นหนึ่งในโปรโตคอลหลักที่ควบคุมการจราจรทางอินเทอร์เน็ต ใช้เพื่อให้เครือข่ายทั่วโลกทราบวิธีการกำหนดเส้นทางไปยังจุดหมายปลายทาง.
วัตถุประสงค์เดิมคือการอัปเดตนโยบายการกระจายข้อมูลภายในเพื่อเพิ่มประสิทธิภาพโครงสร้างพื้นฐาน แต่เนื่องจากการตั้งค่าที่ผิดพลาดจากการส่งด้วยมือ ทำให้บางพรีฟิคของ Cloudflare ไม่สามารถเข้าถึงผ่าน BGP จาก ISP อื่นๆ ได้ เท่ากับว่าทางเดินของบริการเหล่านี้ “หายไป” ในอินเทอร์เน็ต.
ข้อผิดพลาดนี้ไม่ได้ถูกตรวจจับทันทีในเครื่องมือการปรับใช้แบบอัตโนมัติภายใน ดังนั้นจึงถูกส่งไปยังหลายภูมิภาคอย่างกว้างขวางก่อนที่จะแสดงผลกระทบขึ้นมา
เปิดใช้งานการกู้คืนฉุกเฉิน: ยกเลิกการตั้งค่าที่ผิดพลาดอย่างรวดเร็ว
ทีมวิศวกรรมของ Cloudflare ตรวจพบความผิดปกติภายในไม่กี่นาทีหลังจากเกิดเหตุการณ์ และได้เริ่มดำเนินการกู้คืนอย่างเร่งด่วน พวกเขาเริ่มถอนการตั้งค่า BGP ที่ผิดพลาดประมาณ UTC 07:15 และเสร็จสิ้นการกู้คืนใน UTC 07:28 บริการส่วนใหญ่ก็กลับมาใช้งานได้ตามปกติในขณะนั้น.
โดยรวมแล้ว การหยุดชะงักครั้งนี้ใช้เวลาประมาณ 30 ถึง 40 นาที ตามไทม์ไลน์ที่ Cloudflare ให้บริการ การให้บริการได้กลับมาเป็นปกติในเวลา UTC 07:28.
ทำไมระบบอัตโนมัติและกลไกการป้องกันจึงไม่สามารถหยุดปัญหาได้?
Cloudflare ยอมรับว่า ข้อผิดพลาดครั้งนี้เปิดเผยว่า กระบวนการติดตั้งภายในยังมีช่องทางในการปรับปรุงอยู่ โดยกระบวนการอัตโนมัติเดิมมี “กลไกการรักษาความปลอดภัย” ที่สามารถป้องกันการแพร่กระจาย BGP ที่ผิดพลาด แต่การอัปเดตครั้งนี้ถูกดำเนินการในระดับการตั้งค่าระบบที่ต่ำกว่า ซึ่งไม่ได้รวมอยู่ในขอบเขตของการป้องกันนั้น.
นอกจากนี้ การเปลี่ยนแปลงนี้เดิมควรจะมีผลเฉพาะกับกลุ่มเครือข่ายทดลองที่เฉพาะเจาะจง แต่กลับส่งผลกระทบต่อขอบเขตของระบบการผลิตหลักโดยไม่ตั้งใจ พวกเขาได้เริ่มดำเนินการแก้ไขการกำหนดขอบเขตการใช้งานระบบ และเสริมความสามารถในการตรวจจับนโยบายที่ผิดพลาดโดยอัตโนมัติ
Cloudflare สัญญาว่าจะพัฒนาต่อไปในอนาคต
Cloudflare ระบุว่าจะดำเนินการตามมาตรการดังต่อไปนี้เพื่อหลีกเลี่ยงไม่ให้เกิดเหตุการณ์เช่นนี้อีก:
เสริมสร้างกลไกการตรวจสอบการตั้งค่าที่เกี่ยวข้องกับ BGP เพื่อหลีกเลี่ยงการแพร่กระจายเส้นทางที่ไม่คาดคิด;
แยกแยะสิทธิ์การตั้งค่าในสภาพแวดล้อมการทดสอบและการผลิตอย่างชัดเจน;
เพิ่มระบบเตือนอัตโนมัติ ที่สามารถตอบสนองต่อการจราจรเครือข่ายที่ผิดปกติในระดับวินาที;
เสริมการตรวจสอบการเปลี่ยนแปลงภายในและการควบคุมกระบวนการดำเนินการด้วยมือ.
บริษัทยังยืนยันว่าจะยังคงเพิ่มความโปร่งใส หากในอนาคตเกิดข้อผิดพลาดใด ๆ ก็จะประกาศข้อมูลที่เกี่ยวข้องอย่างรวดเร็วเพื่อรักษาความไว้วางใจของผู้ใช้.
ความรับผิดชอบและความท้าทายของยักษ์ใหญ่ในโลกอินเทอร์เน็ต
Cloudflare เป็นหนึ่งในผู้ให้บริการโครงสร้างพื้นฐานทางอินเทอร์เน็ตที่ใหญ่ที่สุดในระดับโลก โดยมีช่วงบริการที่ครอบคลุม CDN, DNS, ความปลอดภัยทางอินเทอร์เน็ต และการป้องกัน DDoS ซึ่งเป็นส่วนประกอบที่สำคัญของเครือข่าย ความผิดพลาดในการตั้งค่า BGP ครั้งเดียวอาจทำให้เกิด “การดับไฟดิจิทัล” ทั่วโลก เหตุการณ์นี้แม้ว่าจะได้รับการจัดการอย่างรวดเร็ว แต่ก็ยังแสดงให้เห็นถึงความเสี่ยงและความท้าทายที่เกิดจากการรวมศูนย์โครงสร้างพื้นฐานของอินเทอร์เน็ตอย่างสูง
บทความนี้ Cloudflare การ “ตัดไฟดิจิทัล” ทั่วโลก: รายงานอย่างเป็นทางการเปิดเผยรายละเอียดของความผิดพลาดเมื่อวันที่ 18 พฤศจิกายน ปรากฏเป็นครั้งแรกใน ข่าวสายโซ่ ABMedia.