การขัดข้องในกลุ่มศูนย์ข้อมูล North Virginia ของ Amazon Web Services (AWS) ได้สร้างความเสียหายให้กับบริการออนไลน์หลายแห่งเป็นเวลาหลายชั่วโมง ทว่า AWS รายงานว่าปัญหาดังกล่าวได้รับการแก้ไขแล้ว

AWS เปิดเผยปัญหานี้ไม่นานหลังเที่ยงคืนตามเวลาแปซิฟิก (PDT) โดยในช่วงเวลาเดียวกันนั้น ผู้ใช้จำนวนมากเริ่มไม่สามารถเข้าถึงบริการต่าง ๆ ได้ เช่น ChatGPT, Disney+, Snapchat, Venmo, Perplexity และบริการออนไลน์อื่น ๆ อีกมากมาย รวมถึงบริการของบริษัทแม่ Amazon.com อย่าง Alexa+ ที่ได้รับผลกระทบเช่นกัน
“ด้วยการเติบโตของการพัฒนาโค้ดแบบ vibe coding และการนำ AI มาใช้อย่างแพร่หลาย โครงสร้างพื้นฐานจึงมีความซับซ้อนมากขึ้น — และเปราะบางมากขึ้น” Harshit Omar ผู้ร่วมก่อตั้งและประธานเจ้าหน้าที่เทคโนโลยีของ FluidCloud กล่าว “การหยุดชะงักลักษณะนี้จะเกิดขึ้นอีกในอนาคต การผูกขาดผู้ให้บริการ (vendor lock-in) คือความเสี่ยงรูปแบบใหม่ของการหยุดให้บริการ”
การขัดข้องครั้งนี้เกิดจากปัญหาทางเทคนิคหลายจุดในเขตคลาวด์ US-EAST-1 ของ AWS ซึ่งเป็นกลุ่มของ availability zone หรือแคมปัสศูนย์ข้อมูลที่แต่ละแห่งมีระบบพลังงานแยกอิสระออกจากกัน US-EAST-1 มีทั้งหมด 6 availability zone ซึ่งมากกว่าสองเท่าของโซนในภูมิภาคคลาวด์อื่น ๆ ของ AWS
หน่วยงานของ Amazon ยืนยันการขัดข้องครั้งแรกบนหน้าเว็บสถานะเมื่อเวลา 00:11 น. ตามเวลาแปซิฟิก โดยวิศวกรของบริษัทระบุในบันทึกภายในว่าปัญหานี้กระทบต่อบริการคลาวด์หลายรายการใน US-EAST-1 และลูกค้าบางรายไม่สามารถส่งคำร้องขอความช่วยเหลือได้
ในประกาศที่เผยแพร่ประมาณหนึ่งชั่วโมงต่อมา AWS เปิดเผยว่าปัญหาดังกล่าวส่งผลกระทบต่อฐานข้อมูลแบบ NoSQL ที่ให้บริการภายใต้ชื่อ Amazon DynamoDB โดยเกิดความผิดพลาดในส่วนของ API ที่เวิร์กโหลดของลูกค้าใช้เชื่อมต่อกับ DynamoDB ทั้งนี้ กลไก DNS ของ API ซึ่งทำหน้าที่แปลง URL ไปเป็น IP address ของเซิร์ฟเวอร์ที่เกี่ยวข้อง เกิดการทำงานผิดพลาด
สามชั่วโมงหลังจากการยืนยันการขัดข้องครั้งแรก วิศวกรของ AWS ประกาศว่าสามารถ “บรรเทาปัญหา” ของ DNS ได้อย่างสมบูรณ์ อย่างไรก็ตาม พวกเขาพบปัญหาที่สองตามมา คือผู้ใช้ไม่สามารถเปิดใช้งานอินแสตนซ์ Amazon EC2 ได้ ซึ่งนำไปสู่การแก้ไขปัญหาที่กินเวลาหลายชั่วโมง
ขณะที่วิศวกรของ AWS กำลังหาทางแก้ไขปัญหา EC2 ยังเกิดปัญหาเพิ่มเติมอีกสองจุด จุดแรกส่งผลกระทบต่อบริการประมวลผลแบบ serverless ของ AWS Lambda ซึ่งนักพัฒนามักใช้สำหรับโฮสต์โค้ด โดยบริการไม่สามารถอ่านข้อมูลที่ส่งมาจากอีกบริการหนึ่งที่ชื่อ Amazon SQS ได้ ส่วนปัญหาที่สองเกิดขึ้นในรูปแบบของการหยุดชะงักด้านเครือข่ายใน US-EAST-1
การอัปเดตที่ AWS เผยแพร่ตลอดหลายชั่วโมงต่อมาแสดงให้เห็นว่าทั้งสามปัญหามีความเชื่อมโยงกันบางส่วน เมื่อเวลา 8:43 น. บริษัทระบุว่าได้จำกัดการเปิดใช้งานอินแสตนซ์ EC2 เพื่อเร่งการฟื้นฟูจากปัญหาเครือข่าย และไม่นานหลังจากเวลา 10:00 น. AWS เปิดเผยว่าปัญหาเครือข่ายนี้เป็นสาเหตุของข้อผิดพลาดบางส่วนใน Lambda
เครือข่ายของ US-EAST-1 ทำงานผิดพลาดเนื่องจากระบบตรวจสอบสถานะของ load balancer เกิดปัญหา โดย load balancer เป็นอุปกรณ์ที่ทำหน้าที่กระจายปริมาณการรับส่งข้อมูลในเครือข่ายไปยังเซิร์ฟเวอร์อย่างสม่ำเสมอ เพื่อป้องกันไม่ให้เครื่องใดเครื่องหนึ่งรับข้อมูลมากเกินไป
“ระบบเครือข่ายถือเป็นองค์ประกอบพื้นฐานของบริการ AWS อย่างแท้จริง” Corey Beck ผู้อำนวยการฝ่ายเทคโนโลยีคลาวด์ของ DataStrike กล่าว “เมื่อเกิดข้อผิดพลาดในภูมิภาคใหญ่อย่าง US-EAST-1 ผลกระทบจะลุกลามไปทั่ว — ตั้งแต่ EC2, S3, DynamoDB, RDS และแทบทุกบริการที่พึ่งพาพวกมัน คุณต้องออกแบบระบบโดยเผื่อความล้มเหลวไว้เสมอ เพราะมันจะเกิดขึ้นแน่นอน”
AWS ระบุสาเหตุรากของปัญหาเครือข่ายได้ในเวลา 8:43 น. และเริ่มดำเนินการแก้ไขในทันที ในการอัปเดตช่วงเที่ยง บริษัทระบุว่าวิศวกรกำลังสังเกตเห็น “การฟื้นตัวของบริการ AWS ทั้งหมด” แต่บริการ Lambda ยังคงมีข้อผิดพลาดเป็นครั้งคราว
การขัดข้องครั้งนี้เกิดขึ้นสี่ปีหลังจากเหตุขัดข้องนานหลายชั่วโมงใน US-EAST-1 เช่นกัน ซึ่งทำให้บริการของบุคคลที่สามหลายแห่งหยุดทำงาน โดยสาเหตุในครั้งนั้นก็เริ่มจากข้อผิดพลาดของระบบ DNS เช่นเดียวกัน วิศวกรของ AWS ในเวลานั้นระบุว่าต้นเหตุของปัญหาอยู่ที่ระบบ autoscaling engine ของหนึ่งในบริการคลาวด์ของบริษัทเอง
ที่มา: https://siliconangle.com/2025/10/20/hours-long-aws-outage-takes-numerous-services-offline/
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






