Google เผยสาเหตุที่ Cloud มีปัญหาเมื่อต้นเดือน พร้อมแก้ไขแล้ว

การ Maintenance หลายจุดบน Cloud พร้อมกันคือต้นเหตุทำให้ระบบเครือข่ายของ Cloud มีปัญหา

google_cloud_platform

เมื่อวันที่ 11 สิงหาคมที่ผ่านมา Google ประสบปัญหาว่า Google App Engine API สามารถเข้าถึงได้บ้างไม่ได้บ้างเป็นเวลา 2 ชั่วโมงต่อเนื่อง โดยมี 18% ของ Application ที่ทำงานอยู่ภายใน US-CENTRAL Region ที่มี Error Rate เกิดขึ้นตั้งแต่ 10% – 50% และอีก 3% นั้นมี Error Rate สูงกว่า 50%

ทาง Google ได้ออกมาเผยถึงต้นตอของปัญหานี้แล้ว ว่าเกิดขึ้นเพราะวิศวกรผู้ดูแลระบบได้ทำการย้าย App Engine Application ระหว่าง Data Center ภายใน US-CENTRAL Region ในเวลานั้นเพื่อให้ปริมาณของ Workload ในแต่ละ Data Center มีความสมดุลมากขึ้น แต่ในขณะเดียวกันนั้นเอง ทีมที่ดูแลระบบเครือข่ายก็กำลังทำการอัปเดตซอฟต์แวร์บน Router ไปด้วยพร้อมๆ กัน

ในขณะที่กำลังทำการอัปเดต Router อยู่นี้ ระบบเครือข่ายของ Google ในเวลานั้นก็รองรับปริมาณ Traffic ได้น้อยลงกว่าเดิมเมื่อเทียบกับในยามปกติ และด้วยการเปิด Instance ใหม่เพื่อเตรียมย้าย Application ระหว่าง Data Center นี้ที่ทำได้ช้ากว่าปกติ ก็ทำให้เกิดการส่ง Retry Packet เยอะกว่าปกติ จนทำให้ Router นั้นทำงานหนักจน CPU โหลดขึ้นเต็ม และทำให้เกิดการ Drop Packet บางส่วนไป

ปัจจุบัน Google ได้แก้ไขปัญหานี้แล้วด้วยการเพิ่มปริมาณ Router เข้าไปให้รองรับ Traffic ได้จำนวนมากขึ้นจนเพียงพอต่อการใช้งาน แม้จะกำลังอัปเดต Software บน Router อยู่ก็ตาม พร้อมทั้งมีการเปลี่ยน Logic ในการย้าย Application และปรับเปลี่ยนพฤติกรรมในการ Retry ของระบบแล้ว

ก็ถือเป็นกรณีศึกษาที่ดีครับ

ที่มา: http://www.theregister.co.uk/2016/08/24/google_broke_its_own_cloud_by_doing_two_updates_at_once/


About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

“ROI” ของแพลตฟอร์ม Low-Code ที่องค์กรธุรกิจอาจไม่รู้ [Guest Post]

โดย นายเติมศักดิ์ วีรขจรพงษ์ รองประธานภูมิภาคเอเชียตะวันออกเฉียงใต้ เอาท์ซิสเต็มส์ ภายใต้แรงกดดันของการนำเสนอประสบการณ์ดิจิทัลใหม่ ๆ ให้แก่ลูกค้าและพนักงาน ควบคู่ไปกับการปรับเปลี่ยนระบบภายในองค์กรธุรกิจที่มีอยู่สำหรับรับมือกับสภาพตลาดที่เปลี่ยนไป ฟอร์เรสเตอร์ รีเสิร์ช (Forrester Research) ประเมินว่าภายในสิ้นปี 2564 …

Microsoft แจกฟรี เอกสารภาษาไทย “เตรียมความพร้อมสำหรับการทำงานแบบ Hybrid Work ไม่ยากอย่างที่คิด”

Hybrid Work เป็นหัวข้อที่ถูกปฏิบัติใช้จริงภาคบังคับให้อย่างแพร่หลายจากสถานการณ์ของการแพร่ระบบจากโคโรน่าไวรัส แม้ว่าปัจจุบันผู้คนจะกลับมาใช้ชีวิตเข้าออฟฟิศกันเกือบปกติแล้วก็ตาม ที่สิ่งที่ต่างออกไปคือความรู้สึกและพฤติกรรมที่เปลี่ยนแปลงไปแล้ว เพราะมีผู้คนมากมายได้สัมผัสถึงคุณภาพชีวิตในอีกรูปแบบหนึ่งและหลายคนก็ชอบเสียด้วย เมื่อพฤติกรรมการทำงานเปลี่ยนไปตัวองค์กรเองก็ต้องมองหากลยุทธ์เพื่อรับมือกับวิธีการปฏิบัติงานที่เกิดขึ้นด้วย ซึ่งแต่ละคนก็ตีความบริบทการทำ Hybrid Work ต่างกัน อนึ่ง Microsoft เองที่เป็นผู้ให้บริการซอฟต์แวร์ระดับองค์กรมาอย่างยาวนานที่มีประสบการณ์ช่วยเหลือธุรกิจมากมาย จึงได้แจกเอกสารฟรีเพื่อเป็นแนวทางเชิงความคิด …