CDIC 2023

Cloudflare ระบบล้ม 19 แห่ง การให้บริการหยุดชะงักกว่า 1 ชั่วโมง

21 มิถุนายน 2022 : Cloudflare ประสบปัญหา BGP Configurations ผิดพลาดซึ่งส่งผลต่อการรับส่งข้อมูลในศูนย์ข้อมูล 19 แห่ง ซึ่งรองรับปริมาณการเข้าถึงจากผู้ใช้งานทั่วโลก การหยุดชะงักครั้งนี้เกิดจากการเปลี่ยนแปลงที่มาจากส่วนหนึ่งของโครงการขนาดใหญ่ที่กำลังดำเนินการอยู่ เพื่อเพิ่มศักยภาพและความยืดหยุ่นให้สามารถรองรับการให้บริการปริมาณผู้ใช้งานที่มีความหนาแน่นได้อย่างคล่องตัวมากขึ้น การเปลี่ยนแปลงการกำหนดค่าเครือข่ายในแต่ละไซต์ทำให้เกิดการหยุดการทำงานภานในระบบขึ้น ซึ่งเริ่มเมื่อเวลา 06:27 UTC และเมื่อเวลา 06:58 UTC ศูนย์ข้อมูลแห่งแรกกลับมาออนไลน์ได้อีกครั้ง และเมื่อเวลา 07:42 UTC ศูนย์ข้อมูลทั้งหมดกลับมาออนไลน์และทำงานได้เต็มระบบ” นี่คือคำชี้แจงถึงเหตุการณ์ครั้งนี้ของ Cloudflare ที่ส่งผลกระทบในวงกว้างสำหรับการเข้าถึงการให้บริการจากลูกค้า
Cloudflare ทั้ง 19 แห่ง ที่ได้รับผลกระทบ :
 
Amsterdam, Atlanta, Ashburn, Chicago, Frankfurt, London, Los Angeles, Madrid, Manchester, Miami, Milan, Mumbai, Newark, Osaka, São Paulo, San Jose, Singapore, Sydney และ Tokyo
 
Multi-Colo PoP (MCP) เป็นโครงการขนาดใหญ่ที่จะแปลงศูนย์ข้อมูลในตำแหน่งที่พลุกพล่านที่สุดของ Cloudflare ให้เป็นสถาปัตยกรรมที่ยืดหยุ่นมากขึ้น และการดำเนินการเปลี่ยนแปลงภายในโครงการนี้ได้นำไปสู่การหยุดชะงักของระบบในวงกว้าง อย่างไรก็ตาม ทีมวิศวกรของ Cloudflare ได้เร่งกำลังในการกู้ระบบคืนกลับมาสู่การบริการปกติให้เร็วที่สุด ซึ่งเวลา 07:42 UTC ศูนย์ข้อมูลทั้งหมดก็กลับมาออนไลน์พร้อมทำงานได้ครบทั้ง 19 แห่ง 
 
Cloudflare อธิบายเพิ่มเติมเกี่ยวกับขั้นตอนการปฏิบัติงานโครงการ Multi-Colo PoP (MCP) เพื่อปรับปรุงระบบ ซึ่งวิศวกรของ Cloudflare ประสบปัญหาขึ้นในระหว่างการเข้าถึงไซต์ที่ได้รับผลกระทบ จนทำให้ทีมวิศวกรจำเป็นต้องเร่งดำเนินการแผนสำรองสำหรับจัดการเหตุการณ์ดังกล่าวเพื่อควบคุมไซต์ที่ได้รับผลกระทบให้กลับคืนมาสู่การบริการปกติอีกครั้ง
cloudflare
Timeline การปฏิบัติงานของทีมวิศวกรของ Cloudflare :
  • 03:56 UTC : ทีมวิศวกร Cloudflare เริ่มปฏิบัติงานโครงการใหม่เพื่อปรับใช้การเปลี่ยนแปลงในตำแหน่งแรก โดยเหตุการณ์ปกติสถานที่ตั้งของ Cloudflare ไม่ได้รับผลกระทบจากการเปลี่ยนแปลง เนื่องจากสถานที่เหล่านี้ใช้สถาปัตยกรรมแบบเก่า
  • 06:17 : การเปลี่ยนแปลงนี้นำไปใช้กับสถานที่ที่พลุกพล่านที่สุดของ Cloudflare แต่ไม่ใช่สถานที่ที่มีสถาปัตยกรรม MCP
  • 06:27 : การปฏิบัติงานของวิศวกรได้ดำเนินงานไปถึงตำแหน่งที่จะต้องเปิดใช้งาน MCP และการเปลี่ยนแปลงนี้จะนำไปใช้กับแกนหลักของระบบ Cloudflare นี่คือช่วงเวลาที่เหตุการณ์เริ่มต้นขึ้น และส่งผลทำให้ไซต์ทั้ง 19 แห่งออฟไลน์ได้อย่างรวดเร็ว
  • 06:32 : เริ่มประกาศเหตุการณ์ Cloudflare ภายใน
  • 06:51 : ทีมวิศวกรเริ่มการเปลี่ยนแปลงครั้งแรกโดยทำบนเราเตอร์เพื่อตรวจสอบสาเหตุที่แท้จริง
  • 06:58 : ทีมวิศวกรตรวจพบสาเหตุที่แท้จริงและเข้าใจวิธีการกู้คืนแล้ว และเริ่มดำเนินการคืนระบบให้กลับมาอีกครั้ง
  • 07:42 : ทีมวิศวกรสามารถคืนระบบเสร็จสิ้นทั้ง 19 แห่ง การดำเนินการนี้ล่าช้าไปกว่า 1 ชั่วโมง 15 นาที เนื่องจากวิศวกรเครือข่ายตรวจสอบการเปลี่ยนแปลงของกันและกันทั้งระบบโครงการใหม่และระบบหลัก ทำให้ปัญหาปรากฏขึ้นมาเป็นระยะๆ
  • 08:00 : ปิดเหตุการณ์สู่ปกติ
 
บริการที่ได้รับผลกระทบจากเหตุการณ์นี้ :
 
Amazon, Twitch, Amazon Web Services, Steam, Coinbase, Telegram, Discord, DoorDash, Gitlab และอื่นๆ
 
แม้ว่าตำแหน่งที่ได้รับผลกระทบจะแสดงข้อมูลขึ้นมาเพียง 4% ของเครือข่ายทั้งหมดของ Cloudflare แต่การหยุดทำงานของทั้ง 19 แห่ง กลับส่งผลกระทบมากถึง 50% ของคำขอ HTTP ทั้งหมดที่จัดการโดย Cloudflare ทั่วโลก ซึ่งเหตุการณ์นี้ส่งผลกระทบในวงกว้าง และทาง Cloudflare เอง ก็ให้ความสำคัญกับความพร้อมเป็นอย่างมากในการรายงานข้อมูลที่ระบุส่วนงานกิจกรรมต่างๆ อย่างชัดเจนของการปรับปรุงและแผนดำเนินการต่อไปเพื่อค้นหาช่องว่างของรอยต่ออื่นๆ ที่อาจทำให้เกิดเหตุการณ์อย่างเช่นครั้งนี้อีก
 
บทสรุป
 
“แม้ว่า Cloudflare ได้ลงทุนอย่างมากในการออกแบบ MCP เพื่อปรับปรุงความพร้อมใช้งานของบริการของเรา เราขออภัยอย่างสุดซึ้งสำหรับการหยุดชะงักของลูกค้าของเราและผู้ใช้ทั้งหมดที่ไม่สามารถเข้าถึงคุณสมบัติอินเทอร์เน็ตได้ในช่วงที่ไฟฟ้าดับ เราได้เริ่มทำงานกับการเปลี่ยนแปลงที่ระบุไว้ข้างต้นแล้ว และจะดำเนินการอย่างขยันขันแข็งต่อไปเพื่อให้แน่ใจว่าสิ่งนี้จะไม่เกิดขึ้นอีก” Cloudflare กล่าวทิ้งท้าย
 

About Pawarit Sornin

- จบการศึกษา ปริญญาตรี สาขาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสวนดุสิต - เคยทำงานด้าน Business Development / Project Manager / Product Sales ดูแลผลิตภัณฑ์ด้าน Wireless Networking และ Mobility Enterprise ในประเทศ - ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

เดลล์ เทคโนโลยีส์ เปิดตัว Dell APEX Cloud Platform for Microsoft Azure ส่งมอบนวัตกรรมไฮบริดคลาวด์สำหรับองค์กร [Guest Post]

เดลล์ เทคโนโลยีส์ ประกาศความพร้อมของ Dell APEX Cloud Platform for Microsoft ระบบเทิร์นคีย์แบบบูรณาการที่ได้รับการพัฒนาขึ้นด้วยความร่วมมือกับไมโครซอฟท์ เพื่อเสริมเพิ่มเติมประสบการณ์ Microsoft Azure ไฮบริดคลาวด์ ไปยังสภาพแวดล้อมของดาต้าเซ็นเตอร์และระบบเอดจ์ปลายทาง

เชิญร่วมงานสัมมนาออนไลน์ Unlock the Limits of Your SAP System with Google Cloud โดย Tangerine [18 ต.ค. 2023]

พลาดไม่ได้! สำหรับองค์กรที่ใช้ระบบ SAP ซึ่งนับเป็นระบบสำคัญที่อยู่เบื้องหลังในการดำเนินธุรกิจให้สำเร็จ ซึ่งภายใต้การแข่งขันที่สูงขึ้นความสำคัญก็ยิ่งเพิ่มขึ้นตามไปด้วย ฉะนั้นจะทำอย่างไร? ให้ธุรกิจสามารถรองรับการใช้งานตามความต้องการที่มีการเปลี่ยนแปลงอยู่เสมอ และจะดีกว่าหรือไม่ หากสามารถนำข้อมูลภายใน SAP มาประยุกต์ใช้กับข้อมูลภายนอก สร้าง Analytics Dashboard ได้ง่ายและรวดเร็ว …