Google ยอมรับ ระบบ Automation ใน Cloud มีปัญหา ทำ Google Compute Engine ล่มไป 93 นาที

Google ได้ออกมาเผยถึงสาเหตุที่บริการ Google Cloud Platform (GCP) ในส่วนของ Google Compute Engine ที่สหรัฐอเมริกาและยุโรปล่มไป 93 นาทีเมื่อวันที่ 18 มกราคม 2018 ที่ผ่านมา ว่าเกิดจากการที่ระบบ Automation บน Cloud นั้นมีปัญหา

 

Credit: Google

 

ระบบ Automation ที่เป็นต้นตอในการทำให้ Cloud ล่มในครั้งนี้อยู่ในส่วนของ Network Programming ที่ส่งผลให้ระบบ Autoscaler ไม่สามารถทำงานได้ตามที่กำหนดไว้ ส่งผลต่อเนื่องให้ระบบ VM ใหม่หรือ VM ที่เพิ่งย้ายมานั้นไม่สามารถเชื่อมต่อเข้ากับ VM ใน Zone อื่นๆ ได้

โดยปกติแล้วเวลาที่มีการสร้าง VM ใหม่หรือย้าย VM ใหม่เข้ามา ระบบของ Google จะต้องจัดการสร้าง Configuration ในส่วนของ VM, Network, Firewall, Scaling ให้เรียบร้อย และทำการอัปเดตไปยังระบบอื่นๆ ภายใน Zone เดียวกันเพื่อให้ VM ใหม่นี้สามารถเชื่อมต่อกับบริการอื่นๆ ได้ แต่ในช่วงที่ GCP มีปัญหานั้นระบบไม่ได้มีการส่งข้อมูล Configuration ในส่วนนี้ ทำให้การสื่อสารระหว่าง Zone ของระบบนั้นไม่สามารถทำงานได้ดังปกติ และเกิดเหตุบริการล่มขึ้นมานั่นเอง

นอกจากนี้ ระบบ Failover นั้นก็ไม่สามารถทำงานได้เนื่องจากไม่สามารถบังคับหยุดการทำงานของ Process ที่เกี่ยวข้องได้โดยอัตโนมัติ ทำให้ทีมงาน GCP ต้องเข้าไปทำการแก้ไขปัญหาแบบ Manual ด้วยตนเอง

Google ได้ออกมาเผยวิธีการแก้ไขปัญหาเหล่านี้ในอนาคตว่าจะปิดการทำ VM Migration ถ้าระบบจัดการ Configuration ไม่สามารถทำงานได้ปกติ และแก้ไขระบบ Failover ให้สามารถทำงานได้แม้จะประสบสถานการณ์ดังกล่าวก็ตาม

 

ที่มา: https://www.theregister.co.uk/2018/02/19/google_compute_engine_outage/


About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

ฮิตาชิ แวนทารา พลิกวงการระบบจัดเก็บข้อมูลองค์กรด้วย Hitachi Virtual Storage Platform 5000 Series และซอฟต์แวร์บริหารจัดการ Hitachi Ops Center ขุมพลังแห่งระบบ AI

ฮิตาชิ แวนทารา (Hitachi Vantara) ในเครือบริษัท ฮิตาชิ จำกัด (TSE: 6501) ประกาศเปิดตัวโซลูชันเก็บข้อมูลยุคใหม่พร้อมโครงสร้างพื้นฐานอันทรงพลัง ด้วยสถาปัตยกรรมใหม่ที่สามารถปรับขยายและยกระดับให้รองรับปริมาณงานทุกสเกล โซลูชันดังกล่าวประกอบด้วยแพลตฟอร์ม Hitachi Virtual Storage Platform (VSP) 5000 Series ซึ่งเป็นระบบจัดเก็บข้อมูลระดับองค์กรใหม่ล่าสุดและเร็วที่สุดในโลก [1] พร้อมด้วยซอฟต์แวร์บริหารจัดการใหม่ล่าสุด Hitachi Ops Center และระบบปฏิบัติการอัปเดตใหม่ Hitachi Storage Virtualization Operating System เมื่อผนวกรวมกันแล้ว เทคโนโลยีเหล่านี้จะเข้ามาเร่งการทำงานในศูนย์ข้อมูลและส่งมอบระบบ IT ที่รองรับอนาคต ด้วยสถาปัตยกรรมใหม่สุดล้ำที่เป็นรากฐานในการยกระดับสภาพแวดล้อมด้านศูนย์ข้อมูล ระบบคลาวด์ และ DataOps ให้ทันสมัยยิ่งขึ้น

3 ประเด็นสำคัญด้าน Cloud Security ที่ทุกธุรกิจองค์กรต้องใส่ใจ โดย Radware

ในปี 2019 ที่ผ่านมานี้ เราได้เห็นเหตุการณ์ด้าน Cybersecurity ที่เกี่ยวข้องกับระบบ Cloud มากมาย ทาง Radware เองก็ได้ออกมาสรุปถึง 3 ประเด็นหลักที่เหล่าธุรกิจองค์กรควรให้ความสำคัญเพื่อปกป้องระบบ Cloud ที่ตนเองใช้งานอยู่ดังนี้