Breaking News
AMR | Citrix Webinar: The Next New Normal

ชี้แจงเหตุการณ์ AWS และ Cloudflare ล่มบางส่วนสาเหตุเพราะ ‘BGP Route leak’

เมื่อวานนี้มีเหตุการณ์เข้าลูกค้าของ AWS, Cloudflare และ Linode เข้าใช้งานไม่ได้บางส่วน โดยมีบทวิเคราะห์และชี้แจงถึงสาเหตุทั้งหมดว่าต้นเหตุเกิดมาจาก BGP Leak แต่ทำไมถึงกระทบในวงกว้างอย่างไรเราขออนุญาตสรุปคำชี้แจงจาก Cloudflare ที่เขียนไว้มาให้อ่านกันครับ

เครดิต : PacketFlow

พื้นฐานของอินเทอร์เน็ตในการ Routing จะมีลักษณะตามด้านบนคือมี Autonomous System แบ่งเป็นโซนและแทนด้วยเลข AS Number ที่ไม่ซ้ำกันจากนั้นผู้ดูแลรายใหญ่ๆ (ISP ระดับประเทศเป็นต้น) จะใช้โปรโตคอล BGP คุยกันเพื่อสร้าง Network Map ขึ้นมาให้รู้ได้ว่าหากต้องการจะไปที่จุดนี้ต้อง Route ทราฟฟิคไปที่ไหน

ไอเดียของปัญหาต้นตอมาจาก ISP เล็กๆ แห่งหนึ่งในตอนเหนือของรัฐแพนซิลวาเนียที่ชื่อ DQE Communications ซึ่งมี AS Number คือ AS33154 ได้มีการใช้ฟีเจอร์ BGP Optimizer ที่ทำให้สามารถแบ่ง IP Prefix (Split)ที่ได้รับให้ย่อยลง เช่น 104.20.0.0/20 กลายเป็น 104.20.0.0/21 และ 104.20.8.0/21 เปรียบเทียบได้กับการแบ่งเส้นทางออกเป็น 2 ทาง อย่างไรก็ดีมีกลไกในเครือข่ายที่สามารถ Route ภายใต้เขตเครือข่ายที่ดูแลได้อยู่แล้ว ปัญหาเพียงอย่างเดียวที่ไม่ควรเกิดคือการประกาศข้อมูลการ Split ให้โลกรู้…

credit : blog.cloudflare

ประเด็นคือ DQE ได้ประกาศ Specific Route ไปหาลูกค้าที่ชื่อ Allegheny Technologies Inc. ซึ่งมี AS Number คือ AS396531 และข้อมูลการ Route ก็ถูกส่งไปหา Verizon (AS701) จากนั้นหายนะก็เกิดขึ้นจากที่นี่เนื่องจาก Verizon ไม่ได้ปฏิบัติตาม Best Practice อย่างเคร่งครัดและนี่คือรอยต่อที่สามารถกระทบกับเครือข่ายระดับใหญ่ โดยเปรียบเสมือนว่า Verizon ได้ประกาศแก่โลกว่านี่คือ Route ที่ดีว่าเพราะเป็นเส้นทางที่เฉพาะเจาะจงกว่าไปยัง Cloudflare, AWS และ Linode (เหมือนบอกว่าจะไปห้างพารากอนใช้ทางนี้สั้นกว่าแทนที่บอกว่าไปสถานีสยามก่อน) ทันใดนั้นก็กระทบกับผู้ให้บริการรายใหญ่ทันทีคือ Amazon, Cloudflare และ Linode ซึ่งจากที่ทราฟฟิคที่กำลังวิ่งอยู่บน Highway (เครือข่ายขนาดใหญ่) ก็ไหลสู่ถนนท้องถิ่นแทนและกระทบกับการใช้งาน (รูปด้านบนแทนคำอธิบายเหตุการณ์ได้อย่างดี)

ป้องกันอย่างไร?

Cloudflare ได้แนะนำวิธีการป้องกันบางส่วนจาก Mutually Agreed Norms for Routing Security (MANRS) มาไว้คร่าวๆ ดังนี้

  • Hard Limited – ตั้งค่าจำกัด Prefix ที่ได้รับ โดย Router สามารถทำการปิดเซสชันหากจำนวนของ Prefix เกินค่า Threshold
  • IRR-Based Filtering – IRR หรือ Internet Routing Registry ทำให้เครือข่ายสามารถเพิ่ม Entries เข้าไปยัง Distributed Database ได้ โดย Network Operator รายอื่นสามารถใช้ IRR Record สร้างลิสต์ของ Prefix อย่างเฉพาะสำหรับเซสชัน BGP กับ Peer ของตนได้ ซึ่งหาก Verizon ใช้ก็คงไม่มีเครือข่ายไหนได้รับค่าจำเฉพาะแบบผิดๆ เหมือนในเหตุการณ์นี้ 
  • RPKI Resource Public Key Infrastructure ซึ่งเป็นวิธีการที่ออกแบบมาเพื่อป้องกัน BGP Hijacking ให้มั่นใจได้ว่า Prefix ไหนควรรับโดยไม่สนใจเส้นทางว่าคืออะไร โดย Cloudflare กล่าวว่าตนและ AT&T รวมถึงผู้ให้บริการอื่นๆ ต่างใช้งานเรียบร้อยแล้ว

โดยจากเหตุการณ์นี้ส่งผลกับทราฟฟิคระดับ Global ของ Cloudflare ราว 15% ซึ่งดูเหมือนว่าจะเป็นความโชคร้ายของ Cloudflare AWS และ Linode เพราะเปรียบเสมือนว่ามีผู้ร่วมทีมที่ละเลยการปฏิบัติหน้าที่ตาม Best Practice โดยข้างท้ายของบทความ Cloudflare กล่าวว่า “เราพยายามติดต่อทั้งโทรและอีเมลไปหาวิศวกรของ Verizon มากกว่า 8 ชม.แต่ก็ไม่มีการตอบรับ” ทั้งนี้ปัญหาคลี่คลายได้จากความช่วยเหลือของ DQE Communications เพื่อหยุดการ Advertise เส้นทางที่ถูก Optimized ไปยัง Allegheny นั่นเอง

ที่มา :  https://blog.cloudflare.com/how-verizon-and-a-bgp-optimizer-knocked-large-parts-of-the-internet-offline-today/ และ  https://www.bleepingcomputer.com/news/technology/bgp-route-leak-causes-cloudflare-and-amazon-aws-problems/



About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

[Guest Post] เราคิดไกลพอหรือยัง กับการคิดให้ไกลกว่าโรคระบาด

แม้ยังเป็นประเด็นถกเถียงกันอยู่ว่า เรายังอยู่ในช่วงเริ่มต้นของการทำความเข้าใจผลพวงจากการระบาดของโควิด-19 ในระยะกลางและระยะยาว แต่ก็เป็นไปได้ว่าในอนาคตธุรกิจส่วนใหญ่จะต้องพิจารณา ถึงการเปลี่ยนแปลงในสาระสำคัญของกลยุทธ์ รูปแบบธุรกิจ และการดำเนินการต่างๆ ของตนเองด้วย ดูเหมือนว่าบรรดานักวิเคราะห์ต่างเห็นพ้องกันมากขึ้นเรื่อยๆ ว่าธุรกิจในอุตสาหกรรมต่างๆ จะต้องกลับมาครองตลาด ส่วนแบ่ง และลูกค้าได้อีกครั้ง การจะทำให้สำเร็จได้นั้น จำเป็นต้องอาศัยนวัตกรรมที่เร็วขึ้นและการตลาดที่ดียิ่งขึ้น …

[รีวิว] Samsung Galaxy XCover Pro และ Samsung Galaxy Tab Active Pro: Smartphone และ Tablet สำหรับภาคธุรกิจและอุตสาหกรรม ที่เน้นความทนทานและการปรับแต่งเพื่อการทำงาน

ทีมงาน TechTalkThai มีโอกาสได้ทดลองใช้งาน Samsung Galaxy XCover Pro อุปกรณ์ Smartphone รุ่นธุรกิจและอุตสาหกรรม กับ Samsung Galaxy Tab Active …