สำรวจสาเหตุ Facebook, IG, Whtasapp ล่มคืนวาน ผ่านมุมมองของ Cloudflare

หลายคนคงจะได้ทราบข่าวใหญ่แล้วนะครับว่าเมื่อคืนนี้เกิดเหตุการณ์ที่บริการของ Facebook ใช้การไม่ได้ อย่างไรก็ดีหากใครอยากทราบช่วงเวลาเริ่มต้น มุมมองในอีกภาพหนึ่งจาก Cloudflare ผู้ให้บริการตัวกลางบริการอินเทอร์เน็ต ที่วิเคราะห์ไว้อย่างน่าสนใจลองมาติดตามกันครับ

credit : Cloudflare

เหตุนั้นเกิดมาจากโปรโตคอลการส่งข้อมูลที่ชื่อว่า BGP หรือ Border Gateway Protocol ที่ทำหน้าที่ค้นหาเส้นทางส่งสารที่ดีที่สุดระหว่าง Autonomous System (AS) โดย BGP มักจะถูกใช้งานระหว่างเราเตอร์ขนาดใหญ่เช่น ISP หรือองค์กรขนาดใหญ่ ที่ภายในประกอบด้วยเครือข่ายของตัวเองจำนวนมาก เช่น AIS, True, Google, Facebook และอื่นๆ โดยเราเตอร์ก็จะมีการอัปเดตข้อมูลตัวเองคร่าวๆ ว่าตนมีเลขไอพีวงไหนให้เราเตอร์อื่นได้ทราบ และตัวเองยังให้บริการอยู่ ศึกษาเพิ่มเติมได้ที่ https://www.cloudflare.com/learning/security/glossary/what-is-bgp/ 

ประเด็นในช่วงเกิดปัญหาของ Facebook ทีม Cloudflare ที่เป็นตัวกลางในการให้บริการอินเทอร์เน็ตรายใหญ่อย่าง Caching, Backbone, Public DNS 1.1.1.1 และอื่นๆ ก็จำเป็นต้องระดมสมองเพื่อตรวจเช็คว่าใครกันแน่ที่มีปัญหา บริการของตนหรือคนอื่นๆ และผลลัพธ์จากการวิเคราะห์ก็พบว่าช่วงเวลาประมาณ 15.30 – 16.00 (UTC) มีการอัปเดต BGP จากฝั่งของ Facebook อย่างชัดเจน (ตามภาพ) จากนั้นปัญหาก็เกิดขึ้น เพราะการอัปเดตที่ Facebook ทำคือการแลกเปลี่ยนข้อมูลเพื่อตัดบริการของตัวเองออกจากโลกภายนอก(withdrawal) ที่มีบริการสำคัญอย่าง DNS Server หมายถึงว่า DNS Resolver ทั่วโลกจะไม่สามารถรู้จักกับ facebook.com หรือบริการภายในอื่นใดของ Facebook ได้อีกต่อไป

ในมุมด้านทราฟฟิคที่ Cloudflare มองเห็นพฤติกรรมของแอปพลิเคชันและ User ก็คือแอปพลิเคชันได้พยายามเชื่อมต่อหลังหา Facebook.com ไม่พบ ประกอบกับเชื่อว่าน่าจะมีผู้ใช้งานพยายามซ้ำเพื่อเข้าให้ได้ ดังนั้นรูปกราฟอีกตัวที่ Cloudflare เห็นจาก DNS Resolver ของตัวเองคือมีโหลดเพิ่มขึ้นกว่า 30 เท่า และผู้ใช้งานก็วิ่งเข้าหาบริการออนไลน์อื่นเช่น Twitter, tiktok, telegram อาจเพื่อแสวงหาคำตอบของ Facebook 

สุดท้ายแล้ว Cloudflare ก็เห็นกราฟกิจกรรมของ BGP จาก Facebook อีกครั้งช่วงเวลาประมาณ 21.00 – 21.20 (UTC) และ facebook.com ก็กลับมาได้นั่นเอง แต่ Whatsapp และ IG ค่อยๆกลับมาในอีกเกือบ 10 นาทีต่อมา โดยกินเวลาไปกว่าเกือบ 5 ชั่วโมงทีเดียว 

ผู้ใช้งาน Reddit ที่อ้างตัวเป็นทีมงาน Facebook

ระหว่างเหตุการณ์ล่มนั้นมีผู้ใช้งาน Reddit ภายใต้ชื่อ u/ramenporn อ้างตัวว่าเป็นทีมงานของ Facebook ที่ยืนยันว่า DNS มีปัญหามาจาก BGP โดยเกิดการตั้งค่าผิดพลาดผ่านหน้า UI แถมพอจะแก้ไขซึ่งต้องเข้าถึงตัวอุปกรณ์เพราะรีโมตไม่ได้แล้ว คนหน้างานก็ไม่ใช่ Senior Engineer ที่รู้วิธีแก้เนื่องจากมาตรการเกี่ยวกับโรคระบาด ปัญหาก็เลยดูซับซ้อนขึ้นอีก อย่างไรก็ดีบัญชีนี้ได้ถูกลบออกแล้วในเวลาต่อมา

ที่มา : https://blog.cloudflare.com/october-2021-facebook-outage/ และ https://www.zdnet.com/article/what-took-facebook-down-major-global-outage-drags-on/ และ https://techcrunch.com/2021/10/04/facebook-whatsapp-instagram-return/

About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Salesforce เข้าซื้อกิจการ Fin มูลค่าราว 3,600 ล้านดอลลาร์ เสริมแกร่ง AI Agent งานบริการลูกค้า

Salesforce ประกาศลงนามข้อตกลงขั้นสุดท้ายเข้าซื้อกิจการ Fin ผู้ให้บริการแพลตฟอร์ม customer agent ในมูลค่าราว 3,600 ล้านดอลลาร์สหรัฐ เพื่อนำเทคโนโลยี AI Agent สำหรับงานบริการลูกค้ามาเสริมความสามารถให้กับ Agentforce

Cisco ออกแพตช์แก้ช่องโหว่ Zero-day บน Catalyst SD-WAN Manager ที่ถูกใช้โจมตียกระดับสิทธิ์เป็น root

Cisco ปล่อยอัปเดตด้านความปลอดภัยแก้ช่องโหว่บน Catalyst SD-WAN Manager (เดิมคือ SD-WAN vManage) หลังพบว่าถูกใช้โจมตีจริงในลักษณะ Zero-day เพื่อยกระดับสิทธิ์เป็น root บนระบบที่ได้รับผลกระทบ