ในงาน USENIX ที่ผ่านมา นักวิจัยจาก University of Toronto ได้ร่วมกับ Google เพื่อเปิดเผยข้อมูลผลสำรวจจาก Data Center ของ Google เอง โดยทำการเปรียบเทียบการใช้งานเทคโนโลยีรูปแบบต่างๆ ของ Solid State Drive (SSD) ทั้งแบบ MLC, eMLC และ SLC มาเป็นเวลากว่า 6 ปีโดยมุ่งเน้นที่ประเด็นของความทนทานเป็นหลัก
ในรายงาน Flash Reliability in Production: The Expected and the Unexpected ที่ทำการศึกษาโดย Bianca Schroeder แห่ง University of Toronto และ Raghav Lagisetty, Arif Merchant แห่ง Google ได้ทำการวิเคราะห์แง่มุมต่างๆ ที่ส่งผลต่อความทนาทนของ SSD ได้แก่
- Error ประเภทต่างๆ ที่เกิดขึ้นในขณะใช้งาน
- Raw Bit Error Rate (RBER) ที่เกิดขึ้นจากสาเหตุต่างๆ เช่น Wear-out, Age และ Workload รวมถึงความสัมพันธ์กับ Error ประเภทต่างๆ
- Uncorrectable Error ที่เกิดขึ้น พร้อมความถี่และความเกี่ยวข้องกับปัจจัยอื่นๆ
- Hardware Failure รูปแบบต่างๆ ที่เกิดขึ้นจากการใช้งานจริง เช่น Block Failure, Chip Failure, Rate of Repair & Replacement of Drive
- เปรียบเทียบความทนทานระหว่าง SSD แบบ MLC, eMLC และ SLC
การศึกษาครั้งนี้ได้ทำการศึกษาบน SSD 10 รุ่น แต่ละรุ่นมีการใช้งานเป็นเวลารวมกันนานเกินกว่า 1,000,000 วัน (จำนวนวันที่ทำงาน * จำนวน SSD ที่ใช้งาน)
ความน่าสนใจในรายงานนี้ก็คือ มีส่วนทีชี้ว่า MLC และ SLC แต่ละยี่ห้อนั้นแตกต่างกันชัดเจนมาก โดย SLC บางรุ่นก็พังก่อน MLC เสียอีก ในขณะที่ SLC บางรุ่นก็ทนทานกว่า SSD อื่นทั้งหมดที่ได้ทำการทดสอบ ทำให้ความเป็น MLC หรือ SLC ไม่สามารถบอกอะไรได้มากนักในมุมของความทนทาน
ผลสรุปของรายงานฉบับนี้มีด้วยกันดังนี้ (ยกมาเฉพาะบางส่วนจะได้ไม่ยาวเกินไป)
- 20-63% ของ SSD จะพบกับ Uncorrectable Error ภายใน 4 ปีแรก และส่งผลกระทบประมาณ 2-6 Drive Days จาก 1,000 Drive Days
- SLC ที่เคยถูกวางเอาไว้ว่าเป็น SSD สำหรับ Enterprise ไม่ได้มีความทนทานแตกต่างจาก MLC แต่อย่างใด
- SSD มีอัตราการ Replace ที่ต่ำกว่า Hard Drive แต่ก็มีอัตราการเกิดปัญหา Uncorrectable Error สูงกว่ามาก
- Bad Block และ Bad Chip นั้นมีความแตกต่างตามรุ่นอย่างมีนัยยะ 30-80% ของ ภายใน 4 ปีแรก SSD จะถูกตรวจพบ Bad Block อย่างน้อย 1 Block และ
- 2-7% จะต้องพบ Bad Chip อย่างน้อย 1 Chip
สำหรับสิ่งที่เหล่าผู้ดูแลระบบทำก่อนนำ SSD ไปใช้ภายใน Data Center ก็คือการทดสอบหา Bad Block ที่เกิดขึ้น เพราะ SSD ที่มีจำนวน Bad Block สูงตั้งแต่ออกมาจากโรงงานั้นก็มีแนวโน้,ที่จะเสียเพิ่มขึ้นไปอีกในขณะใช้งานจริง รวมถึง Error ประเภทอื่นๆ ด้วยเช่นกัน
สำหรับผู้ที่อยากอ่าน Flash Reliability in Production: The Expected and the Unexpected ฉบับเต็ม สามารถอ่านได้เลยที่ http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rackcdn.com/23105-fast16-papers-schroeder.pdf นะครับ แนะนำให้เข้าไปอ่านกัน สนุกดี