NVidia เป็นหนึ่งในผู้ผลักดันนวัตกรรมทางฮาร์ดแวร์สำหรับเรื่อง AI ซึ่งนอกจากนี้ยังมีผลงานด้าน Supercomputer ของตนที่ชื่อ ‘Selene’ โดยสร้างเสร็จภายในเวลาเพียง 3 สัปดาห์กว่าๆ เท่านั้น วันนี้จะมาดูกัยว่า NVidia สร้างยอดขุมพลังในระยะเวลาสั้นๆ แค่นี้ได้อย่างไร
ถ้าพูดถึง Supercomputer เรามักจะจินตนการถึงห้องใหญ่ที่ประกอบด้วยเซิร์ฟเวอร์มากมาย แน่นอนว่ากว่าจะประกอบฮาร์ดแวร์ การเชื่อมต่อ และทดสอบการใช้งานย่อมกินเวลาหลักหลายเตือน แต่เชื่อไหมว่า Supercomputer แรงอับดับ 7 ของโลกจากค่าย NVidia หรือ Gen4 ของ DGX SuperPOD (ชื่อผลิตภัณฑ์ของบริษัท) จะถูกทำให้พร้อมใช้งานได้จริงภายในเวลา 3 สัปดาห์กว่าๆ แถมไม่ได้ยกขโยงคนมามากมายอย่างที่คิด และต้องดำเนินนโยบายภายใต้เงื่อนไขของโควิด19 ที่แพร่ระบาดอีก
ไอเดียของ NVidia ที่ได้รับการขัดเกลาจากประสบการณ์คือการแบ่งระบบเป็นโมดูลให้สามารถ Scale ได้ โดยทีมจะมีการแบ่ง Plane ออกเป็น Compute, Storage และ Management ทำให้ง่ายต่อการขยายขนาดและจัดการ สำหรับ Selene ตั้งอยู่ใน HQ ของ NVidia ในซิลิกอนวัลเล่ย์ ประกอบด้วย DGX v100 280 ตัวที่มี Tensor Core GPU จำนวน 2,240 ตัว ด้าน Networking อาศัยสวิสซ์ค่าย Mellanox กว่า 494 ตัว สำหรับ GPU แต่ละตัวจะมีการ์ดเชื่อมต่อเครือข่าย 2 ใบ รวมถึงมี Storage แบบ All-flash ขนาด 7 เพนตะไบต์
โดยในขั้นตอนการติดตั้ง Supercomputer นั้นปกติต้องระดมวิศวกรหลายสิบคนมาทำและกินเวลาหลายเดือน แต่ NVidia แบ่งทีมย่อยๆ แค่ทีมละ 2 คน เพื่อตอบสนองกับนโยบาย Social Distancing เพื่อแกะกล่องและขึ้น Rack เชื่อหรือไม่ว่าสามารถขึ้นแร็กได้ถึง 60 ตัวในเพียงวันเดียว นอกจากนี้การต่อสายจะมีการเว้นระยะห่างระหว่างบุคคลอย่างน้อย 6 ฟุตและให้ผู้ดูแลล็อกอินเข้ามาตรวจสอบเคเบิ้ลได้ผ่านทางไกล ซึ่งสุดท้ายแล้วเวลาเฉลี่ยในการขึ้นแร็กและตรวจสอบแต่ละเครื่องพร้อมส่งมอบให้ลูกค้ากินเวลาเพียงแค่ 4 ชั่วโมงเท่านั้น
และด้วยการแบ่งระบบอย่างเป็นขั้นเป็นตอนนี้ทำให้ Selene สามารถประสบความสำเร็จพร้องส่งมอบให้ลูกค้าด้วยระยะเวลาไม่นานเลย นอกจากนี้ Selene ยังสามารถคุยกับคนได้ผ่าน Slack เพื่อรายงานการทำงานของสายและปัญหาด้านฮาร์ดแวร์ รวมถึง NVidia ยังใช้หุ่นยนต์เพื่อถ่ายทอดภาพและเสียงให้ทีมงานได้ดูและฟังการทำงานของ Selene ได้ด้วย