เหตุการณ์ Google Compute Engine ที่สาขา europe-west1 ล่มไป 70 นาทีเมื่อวันที่ 23 พฤศจิกายน 2015 ที่ผ่านมานั้น เกิดจากความผิดพลาดในการเชื่อมต่อระบบเครือข่ายเพิ่มเติมนั่นเอง
ในวันนั้น วิศวกรเครือข่ายจาก Google ได้ทำการเชื่อมต่อ Link เพิ่มกับผู้ให้บริการรายหนึ่งที่เคยใช้บริการกันอยู่แล้ว โดย Link ที่มาเชื่อมต่อนั้นได้ทำการ Advertise ว่าสามารถ Route ไปปลางทางที่หลากหลายได้เกินกว่าที่ควร ดังนั้นเมื่อเชื่อมต่อ Link สำเร็จแล้ว Traffic จำนวนมากจึงทะลักเข้ามาจนเต็ม Link และทำให้เกิด Downtime นั่นเอง
ทั้งนี้จริงๆ แล้ว Google เองก็มีมาตรการป้องกันเหตุการณ์แบบนี้โดยมีระบบตรวจเช็ค ที่จะสามารถตรวจสอบปัญหาลักษณะนี้ได้ก่อนที่จะอนุญาตให้มีการ Activate Link นี้เข้ามาใช้งาน แต่ในระหว่างการเชื่อมต่อนั้นวิศวกรเครือข่ายจาก Google ได้ตรวจพบปัญหาอื่นที่ไม่เกี่ยวข้องกับเรื่องนี้ที่ทำให้ระบบตรวจเช็คไม่อนุญาตให้เชื่อมต่อได้ซะก่อน ทางวิศวกรจึงตัดสินใจสลับไปใช้การเชื่อมต่อแบบ Manual แทนโดยไม่ได้ผ่านขั้นตอนการตรวจ Routing ของระบบ ทำให้เกิดปัญหาในครั้งนี้ขึ้น
ตอนนี้ Google ได้เปลี่ยนขั้นตอนในการตรวจเช็คให้ดีขึ้นและไม่อนุญาตให้มีการเชื่อมต่อ Link เองแบบ Manual อีกแล้ว โดยทุกขั้นตอนจะกลายเป็นระบบ Automated ทั้งหมด และมีระบบ Monitor เพื่อตรวจสอบหลังจากการเชื่อมต่อสำเร็จแล้วด้วย
ที่มา: https://status.cloud.google.com/incident/compute/15064#5695159920492544 , http://www.theregister.co.uk/2015/11/30/euro_network_gobbles_googles_cloud/