Cloudflare ระบบล้ม 19 แห่ง การให้บริการหยุดชะงักกว่า 1 ชั่วโมง

21 มิถุนายน 2022 : Cloudflare ประสบปัญหา BGP Configurations ผิดพลาดซึ่งส่งผลต่อการรับส่งข้อมูลในศูนย์ข้อมูล 19 แห่ง ซึ่งรองรับปริมาณการเข้าถึงจากผู้ใช้งานทั่วโลก การหยุดชะงักครั้งนี้เกิดจากการเปลี่ยนแปลงที่มาจากส่วนหนึ่งของโครงการขนาดใหญ่ที่กำลังดำเนินการอยู่ เพื่อเพิ่มศักยภาพและความยืดหยุ่นให้สามารถรองรับการให้บริการปริมาณผู้ใช้งานที่มีความหนาแน่นได้อย่างคล่องตัวมากขึ้น การเปลี่ยนแปลงการกำหนดค่าเครือข่ายในแต่ละไซต์ทำให้เกิดการหยุดการทำงานภานในระบบขึ้น ซึ่งเริ่มเมื่อเวลา 06:27 UTC และเมื่อเวลา 06:58 UTC ศูนย์ข้อมูลแห่งแรกกลับมาออนไลน์ได้อีกครั้ง และเมื่อเวลา 07:42 UTC ศูนย์ข้อมูลทั้งหมดกลับมาออนไลน์และทำงานได้เต็มระบบ” นี่คือคำชี้แจงถึงเหตุการณ์ครั้งนี้ของ Cloudflare ที่ส่งผลกระทบในวงกว้างสำหรับการเข้าถึงการให้บริการจากลูกค้า
Cloudflare ทั้ง 19 แห่ง ที่ได้รับผลกระทบ :
 
Amsterdam, Atlanta, Ashburn, Chicago, Frankfurt, London, Los Angeles, Madrid, Manchester, Miami, Milan, Mumbai, Newark, Osaka, São Paulo, San Jose, Singapore, Sydney และ Tokyo
 
Multi-Colo PoP (MCP) เป็นโครงการขนาดใหญ่ที่จะแปลงศูนย์ข้อมูลในตำแหน่งที่พลุกพล่านที่สุดของ Cloudflare ให้เป็นสถาปัตยกรรมที่ยืดหยุ่นมากขึ้น และการดำเนินการเปลี่ยนแปลงภายในโครงการนี้ได้นำไปสู่การหยุดชะงักของระบบในวงกว้าง อย่างไรก็ตาม ทีมวิศวกรของ Cloudflare ได้เร่งกำลังในการกู้ระบบคืนกลับมาสู่การบริการปกติให้เร็วที่สุด ซึ่งเวลา 07:42 UTC ศูนย์ข้อมูลทั้งหมดก็กลับมาออนไลน์พร้อมทำงานได้ครบทั้ง 19 แห่ง 
 
Cloudflare อธิบายเพิ่มเติมเกี่ยวกับขั้นตอนการปฏิบัติงานโครงการ Multi-Colo PoP (MCP) เพื่อปรับปรุงระบบ ซึ่งวิศวกรของ Cloudflare ประสบปัญหาขึ้นในระหว่างการเข้าถึงไซต์ที่ได้รับผลกระทบ จนทำให้ทีมวิศวกรจำเป็นต้องเร่งดำเนินการแผนสำรองสำหรับจัดการเหตุการณ์ดังกล่าวเพื่อควบคุมไซต์ที่ได้รับผลกระทบให้กลับคืนมาสู่การบริการปกติอีกครั้ง
cloudflare
Timeline การปฏิบัติงานของทีมวิศวกรของ Cloudflare :
  • 03:56 UTC : ทีมวิศวกร Cloudflare เริ่มปฏิบัติงานโครงการใหม่เพื่อปรับใช้การเปลี่ยนแปลงในตำแหน่งแรก โดยเหตุการณ์ปกติสถานที่ตั้งของ Cloudflare ไม่ได้รับผลกระทบจากการเปลี่ยนแปลง เนื่องจากสถานที่เหล่านี้ใช้สถาปัตยกรรมแบบเก่า
  • 06:17 : การเปลี่ยนแปลงนี้นำไปใช้กับสถานที่ที่พลุกพล่านที่สุดของ Cloudflare แต่ไม่ใช่สถานที่ที่มีสถาปัตยกรรม MCP
  • 06:27 : การปฏิบัติงานของวิศวกรได้ดำเนินงานไปถึงตำแหน่งที่จะต้องเปิดใช้งาน MCP และการเปลี่ยนแปลงนี้จะนำไปใช้กับแกนหลักของระบบ Cloudflare นี่คือช่วงเวลาที่เหตุการณ์เริ่มต้นขึ้น และส่งผลทำให้ไซต์ทั้ง 19 แห่งออฟไลน์ได้อย่างรวดเร็ว
  • 06:32 : เริ่มประกาศเหตุการณ์ Cloudflare ภายใน
  • 06:51 : ทีมวิศวกรเริ่มการเปลี่ยนแปลงครั้งแรกโดยทำบนเราเตอร์เพื่อตรวจสอบสาเหตุที่แท้จริง
  • 06:58 : ทีมวิศวกรตรวจพบสาเหตุที่แท้จริงและเข้าใจวิธีการกู้คืนแล้ว และเริ่มดำเนินการคืนระบบให้กลับมาอีกครั้ง
  • 07:42 : ทีมวิศวกรสามารถคืนระบบเสร็จสิ้นทั้ง 19 แห่ง การดำเนินการนี้ล่าช้าไปกว่า 1 ชั่วโมง 15 นาที เนื่องจากวิศวกรเครือข่ายตรวจสอบการเปลี่ยนแปลงของกันและกันทั้งระบบโครงการใหม่และระบบหลัก ทำให้ปัญหาปรากฏขึ้นมาเป็นระยะๆ
  • 08:00 : ปิดเหตุการณ์สู่ปกติ
 
บริการที่ได้รับผลกระทบจากเหตุการณ์นี้ :
 
Amazon, Twitch, Amazon Web Services, Steam, Coinbase, Telegram, Discord, DoorDash, Gitlab และอื่นๆ
 
แม้ว่าตำแหน่งที่ได้รับผลกระทบจะแสดงข้อมูลขึ้นมาเพียง 4% ของเครือข่ายทั้งหมดของ Cloudflare แต่การหยุดทำงานของทั้ง 19 แห่ง กลับส่งผลกระทบมากถึง 50% ของคำขอ HTTP ทั้งหมดที่จัดการโดย Cloudflare ทั่วโลก ซึ่งเหตุการณ์นี้ส่งผลกระทบในวงกว้าง และทาง Cloudflare เอง ก็ให้ความสำคัญกับความพร้อมเป็นอย่างมากในการรายงานข้อมูลที่ระบุส่วนงานกิจกรรมต่างๆ อย่างชัดเจนของการปรับปรุงและแผนดำเนินการต่อไปเพื่อค้นหาช่องว่างของรอยต่ออื่นๆ ที่อาจทำให้เกิดเหตุการณ์อย่างเช่นครั้งนี้อีก
 
บทสรุป
 
“แม้ว่า Cloudflare ได้ลงทุนอย่างมากในการออกแบบ MCP เพื่อปรับปรุงความพร้อมใช้งานของบริการของเรา เราขออภัยอย่างสุดซึ้งสำหรับการหยุดชะงักของลูกค้าของเราและผู้ใช้ทั้งหมดที่ไม่สามารถเข้าถึงคุณสมบัติอินเทอร์เน็ตได้ในช่วงที่ไฟฟ้าดับ เราได้เริ่มทำงานกับการเปลี่ยนแปลงที่ระบุไว้ข้างต้นแล้ว และจะดำเนินการอย่างขยันขันแข็งต่อไปเพื่อให้แน่ใจว่าสิ่งนี้จะไม่เกิดขึ้นอีก” Cloudflare กล่าวทิ้งท้าย
 

About Pawarit Sornin

- จบการศึกษา ปริญญาตรี สาขาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสวนดุสิต - เคยทำงานด้าน Business Development / Project Manager / Product Sales ดูแลผลิตภัณฑ์ด้าน Wireless Networking และ Mobility Enterprise ในประเทศ - ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

ดาวน์โหลด WHITEPAPER ฟรี: การสร้างรากฐานที่จำเป็นสำหรับ SMART HEALTHCARE

สิ่งหนึ่งที่เราได้เห็นกันบ่อยครั้งในหน้าสื่อเกี่ยวกับธุรกิจคือการที่โรคระบาดโควิด 19 ได้เน้นให้เห็นถึงความสำคัญและความเร่งด่วนของการปฏิรูปทางดิจิทัลสำหรับองค์กรในทุกภาคส่วน คำพูดเหล่านี้จริง ทว่าแม้ก่อนเกิดวิกฤตการณ์ในครั้งนี้ขึ้น อาจกล่าวได้ว่าหน่วยงานด้านการดูแลสุขภาพนั้นตระหนักถึงเรื่องนี้เป็นอย่างดีกว่าองค์กรประเภทอื่นๆ

IBM เข้าซื้อกิจการ Dialexa เสริมศักยภาพให้กับ Digital Innovation

IBM ประกาศการซื้อกิจการ Dialexa ซึ่งเป็นบริษัทให้บริการด้านวิศวกรรมผลิตภัณฑ์ดิจิทัลชั้นนำของสหรัฐฯ เพื่อช่วยบริษัทต่างๆ ในการขับเคลื่อนนวัตกรรมและบรรลุวาระการเติบโตทางดิจิทัล การเข้าซื้อกิจการครั้งนี้คาดว่าจะช่วยเสริมศักยภาพความเชี่ยวชาญด้านวิศวกรรมผลิตภัณฑ์ของไอบีเอ็มและให้บริการการเปลี่ยนแปลงทางดิจิทัลแบบครบวงจรสำหรับลูกค้า