สำรวจสาเหตุ Facebook, IG, Whtasapp ล่มคืนวาน ผ่านมุมมองของ Cloudflare

หลายคนคงจะได้ทราบข่าวใหญ่แล้วนะครับว่าเมื่อคืนนี้เกิดเหตุการณ์ที่บริการของ Facebook ใช้การไม่ได้ อย่างไรก็ดีหากใครอยากทราบช่วงเวลาเริ่มต้น มุมมองในอีกภาพหนึ่งจาก Cloudflare ผู้ให้บริการตัวกลางบริการอินเทอร์เน็ต ที่วิเคราะห์ไว้อย่างน่าสนใจลองมาติดตามกันครับ

credit : Cloudflare

เหตุนั้นเกิดมาจากโปรโตคอลการส่งข้อมูลที่ชื่อว่า BGP หรือ Border Gateway Protocol ที่ทำหน้าที่ค้นหาเส้นทางส่งสารที่ดีที่สุดระหว่าง Autonomous System (AS) โดย BGP มักจะถูกใช้งานระหว่างเราเตอร์ขนาดใหญ่เช่น ISP หรือองค์กรขนาดใหญ่ ที่ภายในประกอบด้วยเครือข่ายของตัวเองจำนวนมาก เช่น AIS, True, Google, Facebook และอื่นๆ โดยเราเตอร์ก็จะมีการอัปเดตข้อมูลตัวเองคร่าวๆ ว่าตนมีเลขไอพีวงไหนให้เราเตอร์อื่นได้ทราบ และตัวเองยังให้บริการอยู่ ศึกษาเพิ่มเติมได้ที่ https://www.cloudflare.com/learning/security/glossary/what-is-bgp/ 

ประเด็นในช่วงเกิดปัญหาของ Facebook ทีม Cloudflare ที่เป็นตัวกลางในการให้บริการอินเทอร์เน็ตรายใหญ่อย่าง Caching, Backbone, Public DNS 1.1.1.1 และอื่นๆ ก็จำเป็นต้องระดมสมองเพื่อตรวจเช็คว่าใครกันแน่ที่มีปัญหา บริการของตนหรือคนอื่นๆ และผลลัพธ์จากการวิเคราะห์ก็พบว่าช่วงเวลาประมาณ 15.30 – 16.00 (UTC) มีการอัปเดต BGP จากฝั่งของ Facebook อย่างชัดเจน (ตามภาพ) จากนั้นปัญหาก็เกิดขึ้น เพราะการอัปเดตที่ Facebook ทำคือการแลกเปลี่ยนข้อมูลเพื่อตัดบริการของตัวเองออกจากโลกภายนอก(withdrawal) ที่มีบริการสำคัญอย่าง DNS Server หมายถึงว่า DNS Resolver ทั่วโลกจะไม่สามารถรู้จักกับ facebook.com หรือบริการภายในอื่นใดของ Facebook ได้อีกต่อไป

ในมุมด้านทราฟฟิคที่ Cloudflare มองเห็นพฤติกรรมของแอปพลิเคชันและ User ก็คือแอปพลิเคชันได้พยายามเชื่อมต่อหลังหา Facebook.com ไม่พบ ประกอบกับเชื่อว่าน่าจะมีผู้ใช้งานพยายามซ้ำเพื่อเข้าให้ได้ ดังนั้นรูปกราฟอีกตัวที่ Cloudflare เห็นจาก DNS Resolver ของตัวเองคือมีโหลดเพิ่มขึ้นกว่า 30 เท่า และผู้ใช้งานก็วิ่งเข้าหาบริการออนไลน์อื่นเช่น Twitter, tiktok, telegram อาจเพื่อแสวงหาคำตอบของ Facebook 

สุดท้ายแล้ว Cloudflare ก็เห็นกราฟกิจกรรมของ BGP จาก Facebook อีกครั้งช่วงเวลาประมาณ 21.00 – 21.20 (UTC) และ facebook.com ก็กลับมาได้นั่นเอง แต่ Whatsapp และ IG ค่อยๆกลับมาในอีกเกือบ 10 นาทีต่อมา โดยกินเวลาไปกว่าเกือบ 5 ชั่วโมงทีเดียว 

ผู้ใช้งาน Reddit ที่อ้างตัวเป็นทีมงาน Facebook

ระหว่างเหตุการณ์ล่มนั้นมีผู้ใช้งาน Reddit ภายใต้ชื่อ u/ramenporn อ้างตัวว่าเป็นทีมงานของ Facebook ที่ยืนยันว่า DNS มีปัญหามาจาก BGP โดยเกิดการตั้งค่าผิดพลาดผ่านหน้า UI แถมพอจะแก้ไขซึ่งต้องเข้าถึงตัวอุปกรณ์เพราะรีโมตไม่ได้แล้ว คนหน้างานก็ไม่ใช่ Senior Engineer ที่รู้วิธีแก้เนื่องจากมาตรการเกี่ยวกับโรคระบาด ปัญหาก็เลยดูซับซ้อนขึ้นอีก อย่างไรก็ดีบัญชีนี้ได้ถูกลบออกแล้วในเวลาต่อมา

ที่มา : https://blog.cloudflare.com/october-2021-facebook-outage/ และ https://www.zdnet.com/article/what-took-facebook-down-major-global-outage-drags-on/ และ https://techcrunch.com/2021/10/04/facebook-whatsapp-instagram-return/


About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

เชิญร่วมงานสัมมนา Wi-Fi 6 & 5G Technology by TP-Link | 2 หรือ 9 ธันวาคม 11:00 น.

TP-Link ขอเชิญผู้บริหารและผู้ปฏิบัติงานด้านเครือข่าย เข้าร่วมงานสัมมนาออนไลน์ “Wi-Fi 6 & 5G Technology by TP-Link” เพื่ออัปเดตแนวโน้มเทคโนโลยี Wi-Fi 6 และ 5G …

AWS เพิ่มปริมาณ Data Transfer สำหรับ Free Tier ใหม่ สูงสุด 100GB ต่อเดือน

Amazon Web Services ได้ประกาศเพิ่มปริมาณ Data Transfer สำหรับ Free Tier สูงสุด 100GB ต่อเดือน และสำหรับ Amazon CloudFront …