Google เผยสาเหตุที่ Cloud มีปัญหาเมื่อต้นเดือน พร้อมแก้ไขแล้ว

การ Maintenance หลายจุดบน Cloud พร้อมกันคือต้นเหตุทำให้ระบบเครือข่ายของ Cloud มีปัญหา

google_cloud_platform

เมื่อวันที่ 11 สิงหาคมที่ผ่านมา Google ประสบปัญหาว่า Google App Engine API สามารถเข้าถึงได้บ้างไม่ได้บ้างเป็นเวลา 2 ชั่วโมงต่อเนื่อง โดยมี 18% ของ Application ที่ทำงานอยู่ภายใน US-CENTRAL Region ที่มี Error Rate เกิดขึ้นตั้งแต่ 10% – 50% และอีก 3% นั้นมี Error Rate สูงกว่า 50%

ทาง Google ได้ออกมาเผยถึงต้นตอของปัญหานี้แล้ว ว่าเกิดขึ้นเพราะวิศวกรผู้ดูแลระบบได้ทำการย้าย App Engine Application ระหว่าง Data Center ภายใน US-CENTRAL Region ในเวลานั้นเพื่อให้ปริมาณของ Workload ในแต่ละ Data Center มีความสมดุลมากขึ้น แต่ในขณะเดียวกันนั้นเอง ทีมที่ดูแลระบบเครือข่ายก็กำลังทำการอัปเดตซอฟต์แวร์บน Router ไปด้วยพร้อมๆ กัน

ในขณะที่กำลังทำการอัปเดต Router อยู่นี้ ระบบเครือข่ายของ Google ในเวลานั้นก็รองรับปริมาณ Traffic ได้น้อยลงกว่าเดิมเมื่อเทียบกับในยามปกติ และด้วยการเปิด Instance ใหม่เพื่อเตรียมย้าย Application ระหว่าง Data Center นี้ที่ทำได้ช้ากว่าปกติ ก็ทำให้เกิดการส่ง Retry Packet เยอะกว่าปกติ จนทำให้ Router นั้นทำงานหนักจน CPU โหลดขึ้นเต็ม และทำให้เกิดการ Drop Packet บางส่วนไป

ปัจจุบัน Google ได้แก้ไขปัญหานี้แล้วด้วยการเพิ่มปริมาณ Router เข้าไปให้รองรับ Traffic ได้จำนวนมากขึ้นจนเพียงพอต่อการใช้งาน แม้จะกำลังอัปเดต Software บน Router อยู่ก็ตาม พร้อมทั้งมีการเปลี่ยน Logic ในการย้าย Application และปรับเปลี่ยนพฤติกรรมในการ Retry ของระบบแล้ว

ก็ถือเป็นกรณีศึกษาที่ดีครับ

ที่มา: http://www.theregister.co.uk/2016/08/24/google_broke_its_own_cloud_by_doing_two_updates_at_once/



About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

Check Point เผยแนวโน้มการโจมตีทางไซเบอร์ในปี 2020

เมื่อวันพุธที่ผ่านมานี้เราได้มีโอกาสเข้าร่วมการแถลงข่าวของ Check Point ผู้เชี่ยวชาญในโซลูชันด้านความมั่นคงปลอดภัยซึ่งได้มาเล่าถึงแนวโน้มด้านการโจมตีในปี 2020 เราจึงขอสรุปมาให้ติดตามกันครับ

Intel แพตช์ช่องโหว่ 6 รายการ แนะผู้ใช้อัปเดต

Intel ได้ประกาศออกแพตช์ช่องโหว่ของเดือนมกราคมจำนวน 6 รายการ ซึ่งส่งผลกระทบกับ VTune และ Intel Processor Graphics Driver สำหรับ Windows และ Linux …