Google เผยสาเหตุที่ Cloud มีปัญหาเมื่อต้นเดือน พร้อมแก้ไขแล้ว

การ Maintenance หลายจุดบน Cloud พร้อมกันคือต้นเหตุทำให้ระบบเครือข่ายของ Cloud มีปัญหา

google_cloud_platform

เมื่อวันที่ 11 สิงหาคมที่ผ่านมา Google ประสบปัญหาว่า Google App Engine API สามารถเข้าถึงได้บ้างไม่ได้บ้างเป็นเวลา 2 ชั่วโมงต่อเนื่อง โดยมี 18% ของ Application ที่ทำงานอยู่ภายใน US-CENTRAL Region ที่มี Error Rate เกิดขึ้นตั้งแต่ 10% – 50% และอีก 3% นั้นมี Error Rate สูงกว่า 50%

ทาง Google ได้ออกมาเผยถึงต้นตอของปัญหานี้แล้ว ว่าเกิดขึ้นเพราะวิศวกรผู้ดูแลระบบได้ทำการย้าย App Engine Application ระหว่าง Data Center ภายใน US-CENTRAL Region ในเวลานั้นเพื่อให้ปริมาณของ Workload ในแต่ละ Data Center มีความสมดุลมากขึ้น แต่ในขณะเดียวกันนั้นเอง ทีมที่ดูแลระบบเครือข่ายก็กำลังทำการอัปเดตซอฟต์แวร์บน Router ไปด้วยพร้อมๆ กัน

ในขณะที่กำลังทำการอัปเดต Router อยู่นี้ ระบบเครือข่ายของ Google ในเวลานั้นก็รองรับปริมาณ Traffic ได้น้อยลงกว่าเดิมเมื่อเทียบกับในยามปกติ และด้วยการเปิด Instance ใหม่เพื่อเตรียมย้าย Application ระหว่าง Data Center นี้ที่ทำได้ช้ากว่าปกติ ก็ทำให้เกิดการส่ง Retry Packet เยอะกว่าปกติ จนทำให้ Router นั้นทำงานหนักจน CPU โหลดขึ้นเต็ม และทำให้เกิดการ Drop Packet บางส่วนไป

ปัจจุบัน Google ได้แก้ไขปัญหานี้แล้วด้วยการเพิ่มปริมาณ Router เข้าไปให้รองรับ Traffic ได้จำนวนมากขึ้นจนเพียงพอต่อการใช้งาน แม้จะกำลังอัปเดต Software บน Router อยู่ก็ตาม พร้อมทั้งมีการเปลี่ยน Logic ในการย้าย Application และปรับเปลี่ยนพฤติกรรมในการ Retry ของระบบแล้ว

ก็ถือเป็นกรณีศึกษาที่ดีครับ

ที่มา: http://www.theregister.co.uk/2016/08/24/google_broke_its_own_cloud_by_doing_two_updates_at_once/

About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

การแข่งขันด้านดิจิทัลในประเทศไทย: พร้อมที่จะขับเคลื่อนธุรกิจไปสู่ความสำเร็จหรือไม่ [PR]

บทความโดย: นางสาวกนกกมล เลาหบูรณะกิจ กรรมการผู้จัดการ บริษัท ฟูจิตสึ (ประเทศไทย) จำกัด

รายงาน Group-IB ชี้ APAC ต้องเผชิญกับภัยคุกคามทางไซเบอร์เพิ่มขึ้นเรื่อย ๆ [PR]

รายงาน High-Tech Crime Trends Report 2025 ของ Group-IB เผยให้เห็นว่า ภูมิภาคเอเชียแปซิฟิกต้องเผชิญภัยคุกคามไซเบอร์ที่เพิ่มขึ้น ท่ามกลางสถานการณ์ความเสี่ยงที่ทั่วโลกกำลังเผชิญมากขึ้นเรื่อย ๆ