Visa เผย Data Center ล่มเพราะ Switch ทำงานผิดปกติ และ Failover ไม่สำเร็จ

เมื่อต้นเดือนมิถุนายน 2018 ที่ผ่านมานี้มีเหตุการณ์ Data Center ของ Visa มีปัญหาไปประมาณ 10 ชั่วโมง จนทำให้ธุรกรรมเกือบ 5 ล้านรายการหรือประมาณ 10% ในยุโรปล้มเหลวไป ซึ่งทาง Visa ก็ออกมาแถลงว่าต้นเหตุของกรณีเกิดจากปัญหาที่อุปกรณ์ Switch ภายใน Data Center นั่นเอง

 

Credit: ShutterStock.com

 

Visa ระบุว่า Data Center ของ Visa ในยุโรปนั้นมีด้วยกัน 2 แห่ง และทั้ง 2 แห่งนี้จะทำงานร่วมกันแบบ Active-Active โดยหากแห่งหนึ่งหยุดทำงานไป อีกแห่งหนึ่งก็ทำงานทดแทนได้อย่างสมบูรณ์และรองรับธุรกรรมทั้งหมดได้ด้วยตนเอง แต่ในกรณีนี้อุปกรณ์ Switch นั้นเกิดปัญหาในเคสที่เป็นไปได้ยาก หรืออุปกรณ์มีปัญหาแค่บางส่วนเท่านั้น ทำให้ Switch สำรองไม่ทำ Failover ขึ้นมาทำงานแทน และทำให้การรับส่งข้อมูลระหว่าง Data Center 2 แห่งมีปัญหาเป็นบางส่วน

ทาง Visa ต้องทำการปิดอุปกรณ์ Switch ชุดที่มีปัญหาทิ้งเพื่อแก้ไขปัญหาระบบเครือข่ายก่อน จากนั้นจึงพบว่ายังมีปัญหาข้อมูลธุรกรรมคงค้างและข้อมูลไม่เท่ากันใน Data Center ทั้ง 2 ระบบ จึงต้องทำการตัดระบบเครือข่ายของ Data Center หลักทิ้ง, ปิดระบบทั้งหมดใน Data Center หลักเพื่อไม่ให้การ Synchronize ข้อมูลสร้างปัญหาเพิ่มเติมให้กับ Data Center รอง จากนั้นจึงไปจัดการกับ Message Backlog ทั้งหมดที่ Data Center รองให้เรียบร้อย

กระบวนการทั้งหมดนี้ใช้เวลาประมาณ 10 ชั่วโมงก่อนที่ธุรกรรมต่างๆ ของ Visa จะกลับมาทำงานได้เป็นปกติ โดยปัจจุบันทาง Visa ได้ให้ทาง EY เข้าไปทำการตรวจสอบเหตุการณ์นี้เพิ่มเติม และทาง Visa ก็กำลังเยียวยาให้กับผู้ที่ได้รับความเสียหายจากเหตุการณ์ครั้งนี้อยู่

ก็ถือเป็นกรณีศึกษาสำหรับผู้ที่ดูแลระบบ Data Center ว่าการออกแบบระบบให้ทำงานทดแทนกันได้นั้นก็อาจยังวางใจไม่ได้ และทักษะด้านการตรวจสอบแก้ไขปัญหาให้ได้อย่างรวดเร็วนั้นก็ยังคงเป็นสิ่งสำคัญอยู่ดี

 

ที่มา: https://www.theregister.co.uk/2018/06/19/visa_pins_payment_problems_on_very_rare_fault_in_data_centre_switch/

About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

Stripe เปิดตัวผลิตภัณฑ์ใหม่ 288 รายการ พร้อมส่งแผนพลิกโฉมระบบชำระเงินจากเดิมที่เป็นโครงสร้างพื้นฐานในการทำธุรกรรมสำหรับมนุษย์ ให้กลายเป็นโครงสร้างพื้นฐานที่สามารถตั้งโปรแกรมได้และทำงานอย่างต่อเนื่องเพื่อรองรับธุรกกรรมแบบ Machine-to-Machine ถือเป็นการปูทางเข้าสู่ระบบเศรษฐกิจแบบ Agentic AI อย่างเต็มรูปแบบ