Google เผยสาเหตุที่ Cloud มีปัญหาเมื่อต้นเดือน พร้อมแก้ไขแล้ว

August 24, 2016 Cloud and Systems, Cloud Services, Google, IT Case Studies, IT Knowledge, Products

การ Maintenance หลายจุดบน Cloud พร้อมกันคือต้นเหตุทำให้ระบบเครือข่ายของ Cloud มีปัญหา

เมื่อวันที่ 11 สิงหาคมที่ผ่านมา Google ประสบปัญหาว่า Google App Engine API สามารถเข้าถึงได้บ้างไม่ได้บ้างเป็นเวลา 2 ชั่วโมงต่อเนื่อง โดยมี 18% ของ Application ที่ทำงานอยู่ภายใน US-CENTRAL Region ที่มี Error Rate เกิดขึ้นตั้งแต่ 10% – 50% และอีก 3% นั้นมี Error Rate สูงกว่า 50%

ทาง Google ได้ออกมาเผยถึงต้นตอของปัญหานี้แล้ว ว่าเกิดขึ้นเพราะวิศวกรผู้ดูแลระบบได้ทำการย้าย App Engine Application ระหว่าง Data Center ภายใน US-CENTRAL Region ในเวลานั้นเพื่อให้ปริมาณของ Workload ในแต่ละ Data Center มีความสมดุลมากขึ้น แต่ในขณะเดียวกันนั้นเอง ทีมที่ดูแลระบบเครือข่ายก็กำลังทำการอัปเดตซอฟต์แวร์บน Router ไปด้วยพร้อมๆ กัน

ในขณะที่กำลังทำการอัปเดต Router อยู่นี้ ระบบเครือข่ายของ Google ในเวลานั้นก็รองรับปริมาณ Traffic ได้น้อยลงกว่าเดิมเมื่อเทียบกับในยามปกติ และด้วยการเปิด Instance ใหม่เพื่อเตรียมย้าย Application ระหว่าง Data Center นี้ที่ทำได้ช้ากว่าปกติ ก็ทำให้เกิดการส่ง Retry Packet เยอะกว่าปกติ จนทำให้ Router นั้นทำงานหนักจน CPU โหลดขึ้นเต็ม และทำให้เกิดการ Drop Packet บางส่วนไป

ปัจจุบัน Google ได้แก้ไขปัญหานี้แล้วด้วยการเพิ่มปริมาณ Router เข้าไปให้รองรับ Traffic ได้จำนวนมากขึ้นจนเพียงพอต่อการใช้งาน แม้จะกำลังอัปเดต Software บน Router อยู่ก็ตาม พร้อมทั้งมีการเปลี่ยน Logic ในการย้าย Application และปรับเปลี่ยนพฤติกรรมในการ Retry ของระบบแล้ว

ก็ถือเป็นกรณีศึกษาที่ดีครับ

ที่มา: http://www.theregister.co.uk/2016/08/24/google_broke_its_own_cloud_by_doing_two_updates_at_once/

Dell Technologies ปรับโฉมใหม่ Dell Pro รุกตลาด AI กรุยทางสู่อนาคตการใช้งานระดับองค์กร

เทรนด์ของ AI PCs กำลังมีบทบาทมากขึ้นในปัจจุบัน ซึ่ง IDC คาดการณ์ว่าความต้องการของ AI PCs จะมีแต่ถูกเร่งขึ้นเรื่อยๆ เพราะ AI ได้แทรกเข้าไปในแทบทุกส่วนของการทำงาน ไม่ว่าจะเป็นการประชุม การสร้างคอนเท้นต์ …

Anthropic เปิดตัว Claude Opus 5 ชูความฉลาดใกล้ระดับ Fable 5 ในราคาครึ่งเดียว

Anthropic เปิดตัว Claude Opus 5 โมเดล AI ที่ให้ความสามารถใกล้เคียงระดับ frontier ของ Claude Fable 5 ในราคาครึ่งเดียว โดยยังคิดค่าบริการเท่ากับ …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

About techtalkthai

Related Articles

Check Also