Cloudflare ออกมาชี้แจงว่าเหตุการณ์บริการ 1.1.1.1 Resolver ล่มเมื่อวันที่ 14 กรกฎาคมที่ผ่านมา เกิดจากการตั้งค่าภายในผิดพลาด ไม่ใช่การโจมตีทางไซเบอร์หรือ BGP hijack อย่างที่หลายคนเข้าใจผิด

บริการ 1.1.1.1 public DNS resolver ของ Cloudflare ที่เปิดให้บริการมาตั้งแต่ปี 2018 ประสบปัญหาล่มทั่วโลกเมื่อวันที่ 14 กรกฎาคม ส่งผลให้ผู้ใช้งานส่วนใหญ่ไม่สามารถเข้าถึงบริการอินเทอร์เน็ตได้ชั่วคราว สาเหตุมาจากการเปลี่ยนแปลงการตั้งค่าสำหรับ Data Localization Suite (DLS) ที่จะเปิดตัวในอนาคตเมื่อวันที่ 6 มิถุนายน ซึ่งเชื่อมโยง IP prefix ของ 1.1.1.1 Resolver เข้ากับบริการ DLS ที่ยังไม่ได้ใช้งานจริงโดยไม่ได้ตั้งใจ เมื่อมีการอัปเดตเพิ่ม test location เข้าไปในบริการ DLS นี้ในวันที่ 14 กรกฎาคม เวลา 21:48 UTC ทำให้ configuration ถูก refresh ทั่วโลกและการตั้งค่าผิดพลาดถูกนำไปใช้จริง
ผลคือ IP prefix ของ 1.1.1.1 Resolver ถูกถอนออกจาก production data center ของ Cloudflare และถูกส่งไปยังสถานที่ offline เพียงแห่งเดียว ทำให้บริการไม่สามารถเข้าถึงได้ทั่วโลก Cloudflare ตรวจพบปัญหาภายใน 13 นาทีและเริ่มแก้ไข โดยเริ่มกู้คืนบริการได้ในเวลา 22:20 UTC และกลับมาให้บริการเต็มรูปแบบทุกพื้นที่ในเวลา 22:54 UTC เหตุการณ์นี้ส่งผลกระทบต่อหลาย IP range รวมถึง 1.1.1.1, 1.0.0.1 และ IPv6 DNS resolver ที่ 2606:4700:4700::1111 และ 2606:4700:4700::1001 โดย UDP, TCP และ DNS-over-TLS ได้รับผลกระทบมาก แต่ DNS-over-HTTPS ยังทำงานได้ปกติเพราะใช้เส้นทางผ่าน cloudflare-dns.com
Cloudflare ยอมรับว่าปัญหานี้สามารถป้องกันได้หากใช้ระบบที่มีการ rollout แบบค่อยเป็นค่อยไป จึงวางแผนเลิกใช้ระบบเก่าและเร่งย้ายไปใช้ระบบ configuration ใหม่ที่ใช้ abstract service topologies แทนการผูก IP แบบ static รวมถึงปรับปรุงเอกสารภายในเกี่ยวกับ service topology และพฤติกรรมการ routing ให้ชัดเจนขึ้น เพื่อให้ peer review สามารถตรวจพบข้อผิดพลาดได้ดีขึ้นในอนาคต
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย







