หลายคนคงจะได้ทราบข่าวใหญ่แล้วนะครับว่าเมื่อคืนนี้เกิดเหตุการณ์ที่บริการของ Facebook ใช้การไม่ได้ อย่างไรก็ดีหากใครอยากทราบช่วงเวลาเริ่มต้น มุมมองในอีกภาพหนึ่งจาก Cloudflare ผู้ให้บริการตัวกลางบริการอินเทอร์เน็ต ที่วิเคราะห์ไว้อย่างน่าสนใจลองมาติดตามกันครับ

เหตุนั้นเกิดมาจากโปรโตคอลการส่งข้อมูลที่ชื่อว่า BGP หรือ Border Gateway Protocol ที่ทำหน้าที่ค้นหาเส้นทางส่งสารที่ดีที่สุดระหว่าง Autonomous System (AS) โดย BGP มักจะถูกใช้งานระหว่างเราเตอร์ขนาดใหญ่เช่น ISP หรือองค์กรขนาดใหญ่ ที่ภายในประกอบด้วยเครือข่ายของตัวเองจำนวนมาก เช่น AIS, True, Google, Facebook และอื่นๆ โดยเราเตอร์ก็จะมีการอัปเดตข้อมูลตัวเองคร่าวๆ ว่าตนมีเลขไอพีวงไหนให้เราเตอร์อื่นได้ทราบ และตัวเองยังให้บริการอยู่ ศึกษาเพิ่มเติมได้ที่ https://www.cloudflare.com/learning/security/glossary/what-is-bgp/

ประเด็นในช่วงเกิดปัญหาของ Facebook ทีม Cloudflare ที่เป็นตัวกลางในการให้บริการอินเทอร์เน็ตรายใหญ่อย่าง Caching, Backbone, Public DNS 1.1.1.1 และอื่นๆ ก็จำเป็นต้องระดมสมองเพื่อตรวจเช็คว่าใครกันแน่ที่มีปัญหา บริการของตนหรือคนอื่นๆ และผลลัพธ์จากการวิเคราะห์ก็พบว่าช่วงเวลาประมาณ 15.30 – 16.00 (UTC) มีการอัปเดต BGP จากฝั่งของ Facebook อย่างชัดเจน (ตามภาพ) จากนั้นปัญหาก็เกิดขึ้น เพราะการอัปเดตที่ Facebook ทำคือการแลกเปลี่ยนข้อมูลเพื่อตัดบริการของตัวเองออกจากโลกภายนอก(withdrawal) ที่มีบริการสำคัญอย่าง DNS Server หมายถึงว่า DNS Resolver ทั่วโลกจะไม่สามารถรู้จักกับ facebook.com หรือบริการภายในอื่นใดของ Facebook ได้อีกต่อไป

ในมุมด้านทราฟฟิคที่ Cloudflare มองเห็นพฤติกรรมของแอปพลิเคชันและ User ก็คือแอปพลิเคชันได้พยายามเชื่อมต่อหลังหา Facebook.com ไม่พบ ประกอบกับเชื่อว่าน่าจะมีผู้ใช้งานพยายามซ้ำเพื่อเข้าให้ได้ ดังนั้นรูปกราฟอีกตัวที่ Cloudflare เห็นจาก DNS Resolver ของตัวเองคือมีโหลดเพิ่มขึ้นกว่า 30 เท่า และผู้ใช้งานก็วิ่งเข้าหาบริการออนไลน์อื่นเช่น Twitter, tiktok, telegram อาจเพื่อแสวงหาคำตอบของ Facebook
สุดท้ายแล้ว Cloudflare ก็เห็นกราฟกิจกรรมของ BGP จาก Facebook อีกครั้งช่วงเวลาประมาณ 21.00 – 21.20 (UTC) และ facebook.com ก็กลับมาได้นั่นเอง แต่ Whatsapp และ IG ค่อยๆกลับมาในอีกเกือบ 10 นาทีต่อมา โดยกินเวลาไปกว่าเกือบ 5 ชั่วโมงทีเดียว
ผู้ใช้งาน Reddit ที่อ้างตัวเป็นทีมงาน Facebook
ระหว่างเหตุการณ์ล่มนั้นมีผู้ใช้งาน Reddit ภายใต้ชื่อ u/ramenporn อ้างตัวว่าเป็นทีมงานของ Facebook ที่ยืนยันว่า DNS มีปัญหามาจาก BGP โดยเกิดการตั้งค่าผิดพลาดผ่านหน้า UI แถมพอจะแก้ไขซึ่งต้องเข้าถึงตัวอุปกรณ์เพราะรีโมตไม่ได้แล้ว คนหน้างานก็ไม่ใช่ Senior Engineer ที่รู้วิธีแก้เนื่องจากมาตรการเกี่ยวกับโรคระบาด ปัญหาก็เลยดูซับซ้อนขึ้นอีก อย่างไรก็ดีบัญชีนี้ได้ถูกลบออกแล้วในเวลาต่อมา
ที่มา : https://blog.cloudflare.com/october-2021-facebook-outage/ และ https://www.zdnet.com/article/what-took-facebook-down-major-global-outage-drags-on/ และ https://techcrunch.com/2021/10/04/facebook-whatsapp-instagram-return/