Breaking News

Google เผยสาเหตุที่ Cloud มีปัญหาเมื่อต้นเดือน พร้อมแก้ไขแล้ว

การ Maintenance หลายจุดบน Cloud พร้อมกันคือต้นเหตุทำให้ระบบเครือข่ายของ Cloud มีปัญหา

google_cloud_platform

เมื่อวันที่ 11 สิงหาคมที่ผ่านมา Google ประสบปัญหาว่า Google App Engine API สามารถเข้าถึงได้บ้างไม่ได้บ้างเป็นเวลา 2 ชั่วโมงต่อเนื่อง โดยมี 18% ของ Application ที่ทำงานอยู่ภายใน US-CENTRAL Region ที่มี Error Rate เกิดขึ้นตั้งแต่ 10% – 50% และอีก 3% นั้นมี Error Rate สูงกว่า 50%

ทาง Google ได้ออกมาเผยถึงต้นตอของปัญหานี้แล้ว ว่าเกิดขึ้นเพราะวิศวกรผู้ดูแลระบบได้ทำการย้าย App Engine Application ระหว่าง Data Center ภายใน US-CENTRAL Region ในเวลานั้นเพื่อให้ปริมาณของ Workload ในแต่ละ Data Center มีความสมดุลมากขึ้น แต่ในขณะเดียวกันนั้นเอง ทีมที่ดูแลระบบเครือข่ายก็กำลังทำการอัปเดตซอฟต์แวร์บน Router ไปด้วยพร้อมๆ กัน

ในขณะที่กำลังทำการอัปเดต Router อยู่นี้ ระบบเครือข่ายของ Google ในเวลานั้นก็รองรับปริมาณ Traffic ได้น้อยลงกว่าเดิมเมื่อเทียบกับในยามปกติ และด้วยการเปิด Instance ใหม่เพื่อเตรียมย้าย Application ระหว่าง Data Center นี้ที่ทำได้ช้ากว่าปกติ ก็ทำให้เกิดการส่ง Retry Packet เยอะกว่าปกติ จนทำให้ Router นั้นทำงานหนักจน CPU โหลดขึ้นเต็ม และทำให้เกิดการ Drop Packet บางส่วนไป

ปัจจุบัน Google ได้แก้ไขปัญหานี้แล้วด้วยการเพิ่มปริมาณ Router เข้าไปให้รองรับ Traffic ได้จำนวนมากขึ้นจนเพียงพอต่อการใช้งาน แม้จะกำลังอัปเดต Software บน Router อยู่ก็ตาม พร้อมทั้งมีการเปลี่ยน Logic ในการย้าย Application และปรับเปลี่ยนพฤติกรรมในการ Retry ของระบบแล้ว

ก็ถือเป็นกรณีศึกษาที่ดีครับ

ที่มา: http://www.theregister.co.uk/2016/08/24/google_broke_its_own_cloud_by_doing_two_updates_at_once/



About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

TechTalk Webinar: อนาคตของ Payment และ Data Security โดย Thales และ Planet Communications Asia

TechTalkThai ขอเรียนเชิญ CTO, CIO, CISO, IT Manager, IT Security Manager, Business Manager, Security Engineer, ผู้ดูแลระบบ IT และผู้ที่สนใจทุกท่าน เข้าร่วมฟัง TechTalk Webinar ในหัวข้อเรื่อง "อนาคตของ Payment และ Data Security โดย Thales และ Planet Communications Asia" เพื่อทำความรู้จักกับเทคโนโลยีด้าน Payment ที่ใช้งานอยู่ในปัจจุบันและกำลังจะถูกใช้งานในอนาคต พร้อมโซลูชันสำหรับการปกป้องระบบและข้อมูลด้าน Payment ให้มีความมั่นคงปลอดภัย ในวันจันทร์ที่ 3 สิงหาคม 2020 เวลา 14.00 – 15.30 น. โดยมีกำหนดการและวิธีการลงทะเบียนดังนี้

VMware TechTuesday Webinar ภาคภาษาไทย: VMware NSX Advanced Load Balancer

TechTalkThai ขอเรียนเชิญ IT Manager, ผู้ดูแลระบบ IT, และผู้ที่สนใจทุกท่าน เข้าร่วมฟัง VMware TechTuesday Webinar ภาคภาษาไทย ในหัวข้อเรื่อง "VMware NSX Advanced Load Balancer" เพื่อทำความรู้จักกับความสามารถใหม่ๆ ใน VMware vSAN 7.0 ที่จะช่วยเปลี่ยน Data Center ขององค์กรให้ก้าวสู่การทำ Hybrid Cloud ได้อย่างง่ายดาย บริหารจัดการได้คล่องตัว และปกป้องข้อมูลสำคัญของธุรกิจได้ ในวันอังคารที่ 21 กรกฎาคม 2020 เวลา 10.30 – 12.00 น. โดยมีกำหนดการและวิธีการลงทะเบียนดังนี้