Cloudflare ระบบล้ม 19 แห่ง การให้บริการหยุดชะงักกว่า 1 ชั่วโมง

June 22, 2022 Cloud & Data Center, Cloud and Systems, Cloud Services, Cloudflare, Products

“21 มิถุนายน 2022 : Cloudflare ประสบปัญหา BGP Configurations ผิดพลาดซึ่งส่งผลต่อการรับส่งข้อมูลในศูนย์ข้อมูล 19 แห่ง ซึ่งรองรับปริมาณการเข้าถึงจากผู้ใช้งานทั่วโลก การหยุดชะงักครั้งนี้เกิดจากการเปลี่ยนแปลงที่มาจากส่วนหนึ่งของโครงการขนาดใหญ่ที่กำลังดำเนินการอยู่ เพื่อเพิ่มศักยภาพและความยืดหยุ่นให้สามารถรองรับการให้บริการปริมาณผู้ใช้งานที่มีความหนาแน่นได้อย่างคล่องตัวมากขึ้น การเปลี่ยนแปลงการกำหนดค่าเครือข่ายในแต่ละไซต์ทำให้เกิดการหยุดการทำงานภานในระบบขึ้น ซึ่งเริ่มเมื่อเวลา 06:27 UTC และเมื่อเวลา 06:58 UTC ศูนย์ข้อมูลแห่งแรกกลับมาออนไลน์ได้อีกครั้ง และเมื่อเวลา 07:42 UTC ศูนย์ข้อมูลทั้งหมดกลับมาออนไลน์และทำงานได้เต็มระบบ” นี่คือคำชี้แจงถึงเหตุการณ์ครั้งนี้ของ Cloudflare ที่ส่งผลกระทบในวงกว้างสำหรับการเข้าถึงการให้บริการจากลูกค้า

Cloudflare ทั้ง 19 แห่ง ที่ได้รับผลกระทบ :

Amsterdam, Atlanta, Ashburn, Chicago, Frankfurt, London, Los Angeles, Madrid, Manchester, Miami, Milan, Mumbai, Newark, Osaka, São Paulo, San Jose, Singapore, Sydney และ Tokyo

Multi-Colo PoP (MCP) เป็นโครงการขนาดใหญ่ที่จะแปลงศูนย์ข้อมูลในตำแหน่งที่พลุกพล่านที่สุดของ Cloudflare ให้เป็นสถาปัตยกรรมที่ยืดหยุ่นมากขึ้น และการดำเนินการเปลี่ยนแปลงภายในโครงการนี้ได้นำไปสู่การหยุดชะงักของระบบในวงกว้าง อย่างไรก็ตาม ทีมวิศวกรของ Cloudflare ได้เร่งกำลังในการกู้ระบบคืนกลับมาสู่การบริการปกติให้เร็วที่สุด ซึ่งเวลา 07:42 UTC ศูนย์ข้อมูลทั้งหมดก็กลับมาออนไลน์พร้อมทำงานได้ครบทั้ง 19 แห่ง

Cloudflare อธิบายเพิ่มเติมเกี่ยวกับขั้นตอนการปฏิบัติงานโครงการ Multi-Colo PoP (MCP) เพื่อปรับปรุงระบบ ซึ่งวิศวกรของ Cloudflare ประสบปัญหาขึ้นในระหว่างการเข้าถึงไซต์ที่ได้รับผลกระทบ จนทำให้ทีมวิศวกรจำเป็นต้องเร่งดำเนินการแผนสำรองสำหรับจัดการเหตุการณ์ดังกล่าวเพื่อควบคุมไซต์ที่ได้รับผลกระทบให้กลับคืนมาสู่การบริการปกติอีกครั้ง

Timeline การปฏิบัติงานของทีมวิศวกรของ Cloudflare :

03:56 UTC : ทีมวิศวกร Cloudflare เริ่มปฏิบัติงานโครงการใหม่เพื่อปรับใช้การเปลี่ยนแปลงในตำแหน่งแรก โดยเหตุการณ์ปกติสถานที่ตั้งของ Cloudflare ไม่ได้รับผลกระทบจากการเปลี่ยนแปลง เนื่องจากสถานที่เหล่านี้ใช้สถาปัตยกรรมแบบเก่า
06:17 : การเปลี่ยนแปลงนี้นำไปใช้กับสถานที่ที่พลุกพล่านที่สุดของ Cloudflare แต่ไม่ใช่สถานที่ที่มีสถาปัตยกรรม MCP
06:27 : การปฏิบัติงานของวิศวกรได้ดำเนินงานไปถึงตำแหน่งที่จะต้องเปิดใช้งาน MCP และการเปลี่ยนแปลงนี้จะนำไปใช้กับแกนหลักของระบบ Cloudflare นี่คือช่วงเวลาที่เหตุการณ์เริ่มต้นขึ้น และส่งผลทำให้ไซต์ทั้ง 19 แห่งออฟไลน์ได้อย่างรวดเร็ว
06:32 : เริ่มประกาศเหตุการณ์ Cloudflare ภายใน
06:51 : ทีมวิศวกรเริ่มการเปลี่ยนแปลงครั้งแรกโดยทำบนเราเตอร์เพื่อตรวจสอบสาเหตุที่แท้จริง
06:58 : ทีมวิศวกรตรวจพบสาเหตุที่แท้จริงและเข้าใจวิธีการกู้คืนแล้ว และเริ่มดำเนินการคืนระบบให้กลับมาอีกครั้ง
07:42 : ทีมวิศวกรสามารถคืนระบบเสร็จสิ้นทั้ง 19 แห่ง การดำเนินการนี้ล่าช้าไปกว่า 1 ชั่วโมง 15 นาที เนื่องจากวิศวกรเครือข่ายตรวจสอบการเปลี่ยนแปลงของกันและกันทั้งระบบโครงการใหม่และระบบหลัก ทำให้ปัญหาปรากฏขึ้นมาเป็นระยะๆ
08:00 : ปิดเหตุการณ์สู่ปกติ

บริการที่ได้รับผลกระทบจากเหตุการณ์นี้ :

Amazon, Twitch, Amazon Web Services, Steam, Coinbase, Telegram, Discord, DoorDash, Gitlab และอื่นๆ

แม้ว่าตำแหน่งที่ได้รับผลกระทบจะแสดงข้อมูลขึ้นมาเพียง 4% ของเครือข่ายทั้งหมดของ Cloudflare แต่การหยุดทำงานของทั้ง 19 แห่ง กลับส่งผลกระทบมากถึง 50% ของคำขอ HTTP ทั้งหมดที่จัดการโดย Cloudflare ทั่วโลก ซึ่งเหตุการณ์นี้ส่งผลกระทบในวงกว้าง และทาง Cloudflare เอง ก็ให้ความสำคัญกับความพร้อมเป็นอย่างมากในการรายงานข้อมูลที่ระบุส่วนงานกิจกรรมต่างๆ อย่างชัดเจนของการปรับปรุงและแผนดำเนินการต่อไปเพื่อค้นหาช่องว่างของรอยต่ออื่นๆ ที่อาจทำให้เกิดเหตุการณ์อย่างเช่นครั้งนี้อีก

บทสรุป

“แม้ว่า Cloudflare ได้ลงทุนอย่างมากในการออกแบบ MCP เพื่อปรับปรุงความพร้อมใช้งานของบริการของเรา เราขออภัยอย่างสุดซึ้งสำหรับการหยุดชะงักของลูกค้าของเราและผู้ใช้ทั้งหมดที่ไม่สามารถเข้าถึงคุณสมบัติอินเทอร์เน็ตได้ในช่วงที่ไฟฟ้าดับ เราได้เริ่มทำงานกับการเปลี่ยนแปลงที่ระบุไว้ข้างต้นแล้ว และจะดำเนินการอย่างขยันขันแข็งต่อไปเพื่อให้แน่ใจว่าสิ่งนี้จะไม่เกิดขึ้นอีก” Cloudflare กล่าวทิ้งท้าย

ที่มา : https://www.bleepingcomputer.com/news/technology/massive-cloudflare-outage-caused-by-network-configuration-error/?fbclid=IwAR0mc-Zig0sOiT7l34rZpfWLLMcwlKTxz_tD0W04lpbs-di8OKbx6aeEfi8

https://blog.cloudflare.com/cloudflare-outage-on-june-21-2022/?fbclid=IwAR1LOQy3go-mDiOoobIvStEaSB7NmnDRu2_TSMdGNBcsKWDBPs95Hy4VD_8

ฟอร์ติเน็ต ยกระดับ FortiEndpoint เสริมความปลอดภัยให้องค์กรรองรับการใช้งาน AI อย่างมั่นใจ [PR]

FortiEndpoint รวมการบริหารจัดการผ่านเอเจนต์เดียว คอนโซลเดียว และไลเซนส์เดียว ช่วยให้องค์กรใช้งาน AI ได้อย่างปลอดภัย ปกป้องข้อมูลสำคัญ เพิ่มการมองเห็นความเสี่ยง และลดความซับซ้อนในการดำเนินงานด้านความมั่นคงปลอดภัย

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Cloudflare ระบบล้ม 19 แห่ง การให้บริการหยุดชะงักกว่า 1 ชั่วโมง

About Pawarit Sornin

Related Articles

Check Also

ฟอร์ติเน็ต ยกระดับ FortiEndpoint เสริมความปลอดภัยให้องค์กรรองรับการใช้งาน AI อย่างมั่นใจ [PR]

SendQuick Webinar : Identity Under Attack “ถอดบทเรียนการโจมตีในไทย และวิธีป้องกันด้วย MFA” [20 ส.ค. 69 — 14.00น.]

Cloudflare ระบบล้ม 19 แห่ง การให้บริการหยุดชะงักกว่า 1 ชั่วโมง

Share this:

About Pawarit Sornin

Related Articles

Check Also