สำรวจสาเหตุ Facebook, IG, Whtasapp ล่มคืนวาน ผ่านมุมมองของ Cloudflare

หลายคนคงจะได้ทราบข่าวใหญ่แล้วนะครับว่าเมื่อคืนนี้เกิดเหตุการณ์ที่บริการของ Facebook ใช้การไม่ได้ อย่างไรก็ดีหากใครอยากทราบช่วงเวลาเริ่มต้น มุมมองในอีกภาพหนึ่งจาก Cloudflare ผู้ให้บริการตัวกลางบริการอินเทอร์เน็ต ที่วิเคราะห์ไว้อย่างน่าสนใจลองมาติดตามกันครับ

credit : Cloudflare

เหตุนั้นเกิดมาจากโปรโตคอลการส่งข้อมูลที่ชื่อว่า BGP หรือ Border Gateway Protocol ที่ทำหน้าที่ค้นหาเส้นทางส่งสารที่ดีที่สุดระหว่าง Autonomous System (AS) โดย BGP มักจะถูกใช้งานระหว่างเราเตอร์ขนาดใหญ่เช่น ISP หรือองค์กรขนาดใหญ่ ที่ภายในประกอบด้วยเครือข่ายของตัวเองจำนวนมาก เช่น AIS, True, Google, Facebook และอื่นๆ โดยเราเตอร์ก็จะมีการอัปเดตข้อมูลตัวเองคร่าวๆ ว่าตนมีเลขไอพีวงไหนให้เราเตอร์อื่นได้ทราบ และตัวเองยังให้บริการอยู่ ศึกษาเพิ่มเติมได้ที่ https://www.cloudflare.com/learning/security/glossary/what-is-bgp/ 

ประเด็นในช่วงเกิดปัญหาของ Facebook ทีม Cloudflare ที่เป็นตัวกลางในการให้บริการอินเทอร์เน็ตรายใหญ่อย่าง Caching, Backbone, Public DNS 1.1.1.1 และอื่นๆ ก็จำเป็นต้องระดมสมองเพื่อตรวจเช็คว่าใครกันแน่ที่มีปัญหา บริการของตนหรือคนอื่นๆ และผลลัพธ์จากการวิเคราะห์ก็พบว่าช่วงเวลาประมาณ 15.30 – 16.00 (UTC) มีการอัปเดต BGP จากฝั่งของ Facebook อย่างชัดเจน (ตามภาพ) จากนั้นปัญหาก็เกิดขึ้น เพราะการอัปเดตที่ Facebook ทำคือการแลกเปลี่ยนข้อมูลเพื่อตัดบริการของตัวเองออกจากโลกภายนอก(withdrawal) ที่มีบริการสำคัญอย่าง DNS Server หมายถึงว่า DNS Resolver ทั่วโลกจะไม่สามารถรู้จักกับ facebook.com หรือบริการภายในอื่นใดของ Facebook ได้อีกต่อไป

ในมุมด้านทราฟฟิคที่ Cloudflare มองเห็นพฤติกรรมของแอปพลิเคชันและ User ก็คือแอปพลิเคชันได้พยายามเชื่อมต่อหลังหา Facebook.com ไม่พบ ประกอบกับเชื่อว่าน่าจะมีผู้ใช้งานพยายามซ้ำเพื่อเข้าให้ได้ ดังนั้นรูปกราฟอีกตัวที่ Cloudflare เห็นจาก DNS Resolver ของตัวเองคือมีโหลดเพิ่มขึ้นกว่า 30 เท่า และผู้ใช้งานก็วิ่งเข้าหาบริการออนไลน์อื่นเช่น Twitter, tiktok, telegram อาจเพื่อแสวงหาคำตอบของ Facebook 

สุดท้ายแล้ว Cloudflare ก็เห็นกราฟกิจกรรมของ BGP จาก Facebook อีกครั้งช่วงเวลาประมาณ 21.00 – 21.20 (UTC) และ facebook.com ก็กลับมาได้นั่นเอง แต่ Whatsapp และ IG ค่อยๆกลับมาในอีกเกือบ 10 นาทีต่อมา โดยกินเวลาไปกว่าเกือบ 5 ชั่วโมงทีเดียว 

ผู้ใช้งาน Reddit ที่อ้างตัวเป็นทีมงาน Facebook

ระหว่างเหตุการณ์ล่มนั้นมีผู้ใช้งาน Reddit ภายใต้ชื่อ u/ramenporn อ้างตัวว่าเป็นทีมงานของ Facebook ที่ยืนยันว่า DNS มีปัญหามาจาก BGP โดยเกิดการตั้งค่าผิดพลาดผ่านหน้า UI แถมพอจะแก้ไขซึ่งต้องเข้าถึงตัวอุปกรณ์เพราะรีโมตไม่ได้แล้ว คนหน้างานก็ไม่ใช่ Senior Engineer ที่รู้วิธีแก้เนื่องจากมาตรการเกี่ยวกับโรคระบาด ปัญหาก็เลยดูซับซ้อนขึ้นอีก อย่างไรก็ดีบัญชีนี้ได้ถูกลบออกแล้วในเวลาต่อมา

ที่มา : https://blog.cloudflare.com/october-2021-facebook-outage/ และ https://www.zdnet.com/article/what-took-facebook-down-major-global-outage-drags-on/ และ https://techcrunch.com/2021/10/04/facebook-whatsapp-instagram-return/


About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

ปกป้องข้อมูลและกู้สถานการณ์จาก Ransomware โดยอัตโนมัติ ด้วย IBM FlashSystem Cyber Vault

ทุกวันนี้ การรับมือกับ Ransomware ได้กลายเป็นหนึ่งในหน้าที่พื้นฐานของเหล่าผู้ดูแลระบบ IT ภายในองค์กรไปแล้ว และแน่นอนว่าเหล่าผู้พัฒนาโซลูชันระบบต่างๆ ที่เกี่ยวข้องกับการบริหารจัดการข้อมูล โดยเฉพาะ Enterprise Storage เองต่างก็ได้มีการพัฒนาความสามารถใหม่ๆ ขึ้นมาอย่างต่อเนื่องเพื่อช่วยเหล่าผู้ดูแลระบบ IT ในการรับมือกับภัยคุกคามดังกล่าว

[Video] รู้จักโซลูชัน IBM FlashSystem Cyber Vault: ปกป้องข้อมูลสำคัญของธุรกิจจาก Ransomware แบบอัตโนมัติ

ธุรกิจองค์กรสามารถเลือกใช้ IBM FlashSystem Cyber Vault ในการรับมือกับ Ransomware ในแบบอัตโนมัติได้อย่างเหมาะสมตามความต้องการ ต่อยอดจากการใช้เพียง IBM FlashSystem และ IBM Safeguarded Copy เพื่อปกป้องข้อมูล Snapshot จากการถูกโจมตีเพียงเท่านั้นได้