AWS ล่มนานหลายชั่วโมง ทำบริการออนไลน์จำนวนมากหยุดชะงัก – ขณะนี้กลับมาเป็นปกติแล้ว

October 21, 2025 AWS, Cloud and Systems, Cloud Services, Products

การขัดข้องในกลุ่มศูนย์ข้อมูล North Virginia ของ Amazon Web Services (AWS) ได้สร้างความเสียหายให้กับบริการออนไลน์หลายแห่งเป็นเวลาหลายชั่วโมง ทว่า AWS รายงานว่าปัญหาดังกล่าวได้รับการแก้ไขแล้ว

AWS เปิดเผยปัญหานี้ไม่นานหลังเที่ยงคืนตามเวลาแปซิฟิก (PDT) โดยในช่วงเวลาเดียวกันนั้น ผู้ใช้จำนวนมากเริ่มไม่สามารถเข้าถึงบริการต่าง ๆ ได้ เช่น ChatGPT, Disney+, Snapchat, Venmo, Perplexity และบริการออนไลน์อื่น ๆ อีกมากมาย รวมถึงบริการของบริษัทแม่ Amazon.com อย่าง Alexa+ ที่ได้รับผลกระทบเช่นกัน

“ด้วยการเติบโตของการพัฒนาโค้ดแบบ vibe coding และการนำ AI มาใช้อย่างแพร่หลาย โครงสร้างพื้นฐานจึงมีความซับซ้อนมากขึ้น — และเปราะบางมากขึ้น” Harshit Omar ผู้ร่วมก่อตั้งและประธานเจ้าหน้าที่เทคโนโลยีของ FluidCloud กล่าว “การหยุดชะงักลักษณะนี้จะเกิดขึ้นอีกในอนาคต การผูกขาดผู้ให้บริการ (vendor lock-in) คือความเสี่ยงรูปแบบใหม่ของการหยุดให้บริการ”

การขัดข้องครั้งนี้เกิดจากปัญหาทางเทคนิคหลายจุดในเขตคลาวด์ US-EAST-1 ของ AWS ซึ่งเป็นกลุ่มของ availability zone หรือแคมปัสศูนย์ข้อมูลที่แต่ละแห่งมีระบบพลังงานแยกอิสระออกจากกัน US-EAST-1 มีทั้งหมด 6 availability zone ซึ่งมากกว่าสองเท่าของโซนในภูมิภาคคลาวด์อื่น ๆ ของ AWS

หน่วยงานของ Amazon ยืนยันการขัดข้องครั้งแรกบนหน้าเว็บสถานะเมื่อเวลา 00:11 น. ตามเวลาแปซิฟิก โดยวิศวกรของบริษัทระบุในบันทึกภายในว่าปัญหานี้กระทบต่อบริการคลาวด์หลายรายการใน US-EAST-1 และลูกค้าบางรายไม่สามารถส่งคำร้องขอความช่วยเหลือได้

ในประกาศที่เผยแพร่ประมาณหนึ่งชั่วโมงต่อมา AWS เปิดเผยว่าปัญหาดังกล่าวส่งผลกระทบต่อฐานข้อมูลแบบ NoSQL ที่ให้บริการภายใต้ชื่อ Amazon DynamoDB โดยเกิดความผิดพลาดในส่วนของ API ที่เวิร์กโหลดของลูกค้าใช้เชื่อมต่อกับ DynamoDB ทั้งนี้ กลไก DNS ของ API ซึ่งทำหน้าที่แปลง URL ไปเป็น IP address ของเซิร์ฟเวอร์ที่เกี่ยวข้อง เกิดการทำงานผิดพลาด

สามชั่วโมงหลังจากการยืนยันการขัดข้องครั้งแรก วิศวกรของ AWS ประกาศว่าสามารถ “บรรเทาปัญหา” ของ DNS ได้อย่างสมบูรณ์ อย่างไรก็ตาม พวกเขาพบปัญหาที่สองตามมา คือผู้ใช้ไม่สามารถเปิดใช้งานอินแสตนซ์ Amazon EC2 ได้ ซึ่งนำไปสู่การแก้ไขปัญหาที่กินเวลาหลายชั่วโมง

ขณะที่วิศวกรของ AWS กำลังหาทางแก้ไขปัญหา EC2 ยังเกิดปัญหาเพิ่มเติมอีกสองจุด จุดแรกส่งผลกระทบต่อบริการประมวลผลแบบ serverless ของ AWS Lambda ซึ่งนักพัฒนามักใช้สำหรับโฮสต์โค้ด โดยบริการไม่สามารถอ่านข้อมูลที่ส่งมาจากอีกบริการหนึ่งที่ชื่อ Amazon SQS ได้ ส่วนปัญหาที่สองเกิดขึ้นในรูปแบบของการหยุดชะงักด้านเครือข่ายใน US-EAST-1

การอัปเดตที่ AWS เผยแพร่ตลอดหลายชั่วโมงต่อมาแสดงให้เห็นว่าทั้งสามปัญหามีความเชื่อมโยงกันบางส่วน เมื่อเวลา 8:43 น. บริษัทระบุว่าได้จำกัดการเปิดใช้งานอินแสตนซ์ EC2 เพื่อเร่งการฟื้นฟูจากปัญหาเครือข่าย และไม่นานหลังจากเวลา 10:00 น. AWS เปิดเผยว่าปัญหาเครือข่ายนี้เป็นสาเหตุของข้อผิดพลาดบางส่วนใน Lambda

เครือข่ายของ US-EAST-1 ทำงานผิดพลาดเนื่องจากระบบตรวจสอบสถานะของ load balancer เกิดปัญหา โดย load balancer เป็นอุปกรณ์ที่ทำหน้าที่กระจายปริมาณการรับส่งข้อมูลในเครือข่ายไปยังเซิร์ฟเวอร์อย่างสม่ำเสมอ เพื่อป้องกันไม่ให้เครื่องใดเครื่องหนึ่งรับข้อมูลมากเกินไป

“ระบบเครือข่ายถือเป็นองค์ประกอบพื้นฐานของบริการ AWS อย่างแท้จริง” Corey Beck ผู้อำนวยการฝ่ายเทคโนโลยีคลาวด์ของ DataStrike กล่าว “เมื่อเกิดข้อผิดพลาดในภูมิภาคใหญ่อย่าง US-EAST-1 ผลกระทบจะลุกลามไปทั่ว — ตั้งแต่ EC2, S3, DynamoDB, RDS และแทบทุกบริการที่พึ่งพาพวกมัน คุณต้องออกแบบระบบโดยเผื่อความล้มเหลวไว้เสมอ เพราะมันจะเกิดขึ้นแน่นอน”

AWS ระบุสาเหตุรากของปัญหาเครือข่ายได้ในเวลา 8:43 น. และเริ่มดำเนินการแก้ไขในทันที ในการอัปเดตช่วงเที่ยง บริษัทระบุว่าวิศวกรกำลังสังเกตเห็น “การฟื้นตัวของบริการ AWS ทั้งหมด” แต่บริการ Lambda ยังคงมีข้อผิดพลาดเป็นครั้งคราว

การขัดข้องครั้งนี้เกิดขึ้นสี่ปีหลังจากเหตุขัดข้องนานหลายชั่วโมงใน US-EAST-1 เช่นกัน ซึ่งทำให้บริการของบุคคลที่สามหลายแห่งหยุดทำงาน โดยสาเหตุในครั้งนั้นก็เริ่มจากข้อผิดพลาดของระบบ DNS เช่นเดียวกัน วิศวกรของ AWS ในเวลานั้นระบุว่าต้นเหตุของปัญหาอยู่ที่ระบบ autoscaling engine ของหนึ่งในบริการคลาวด์ของบริษัทเอง

ที่มา: https://siliconangle.com/2025/10/20/hours-long-aws-outage-takes-numerous-services-offline/

Anthropic เปิดตัว Claude Opus 5 ชูความฉลาดใกล้ระดับ Fable 5 ในราคาครึ่งเดียว

Anthropic เปิดตัว Claude Opus 5 โมเดล AI ที่ให้ความสามารถใกล้เคียงระดับ frontier ของ Claude Fable 5 ในราคาครึ่งเดียว โดยยังคิดค่าบริการเท่ากับ …

Dell Pro Precision x Dell Pro AI Studio: จุดเริ่มต้น AI ที่ใช่สำหรับทุกองค์กร [Guest Post]

ในยุคที่ AI กลายเป็นหัวใจของการขับเคลื่อนธุรกิจ องค์กรทุกขนาดต่างมองหา “จุดเริ่มต้น” ที่แข็งแรงพอจะรองรับงานตั้งแต่การออกแบบ วิเคราะห์ข้อมูล ไปจนถึงการพัฒนาโมเดล AI ของตัวเอง Dell Pro Precision คือคำตอบ workstations …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

AWS ล่มนานหลายชั่วโมง ทำบริการออนไลน์จำนวนมากหยุดชะงัก – ขณะนี้กลับมาเป็นปกติแล้ว

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also

Anthropic เปิดตัว Claude Opus 5 ชูความฉลาดใกล้ระดับ Fable 5 ในราคาครึ่งเดียว

Dell Pro Precision x Dell Pro AI Studio: จุดเริ่มต้น AI ที่ใช่สำหรับทุกองค์กร [Guest Post]

AWS ล่มนานหลายชั่วโมง ทำบริการออนไลน์จำนวนมากหยุดชะงัก – ขณะนี้กลับมาเป็นปกติแล้ว

Share this:

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also