Meta ได้ออกมาเผยถึง Supercomputer ใหม่ที่สามารถใช้งานได้แล้ว โดยเร็วกว่าเดิมถึง 20 เท่าในงาน Computer Vision ซึ่งทีมงานออกแบบมาให้รองรับข้อมูลได้ถึง Exabytes

ในปี 2013 Facebook ได้เข้าสู่การทำงานด้าน AI อย่างจริงจัง และหัวใจสำคัญของการทำงานด้าน AI ก็คือแรงประมวลผลมหาศาล ซึ่งในปี 2017 ได้ถือกำเนิด HPC ที่ประกอบขึ้นจาก NVidia v100 Tensor Core 22,000 GPU ที่รองรับการเทรนข้อมูลได้ราว 35,000 งานต่อวัน ทั้งนี้กล่าวได้ว่า Facebook ถือเป็นหนึ่งในทีมงานที่ใช้งานและเข้าใจพลังของ AI อย่างลึกซึ้ง โดยหลังจากที่ตระหนักดีแล้วว่าสิ่งที่มียังไม่สามารถตอบโจทย์การใช้งานเช่น
- ตรวจสอบเนื้อหาไม่เหมาะสม – โมเดลของ AI ที่ทำงานด้านนี้มีความซับซ้อนสูง ขนาดใหญ่ และต้องขยายตัวได้
- Computer Vision – ควรรองรับวีดีโอที่มีขนาดใหญ่ขี้น วิเคราะห์เนื้อหาได้นาน และอัตราการ Sampling ที่ดีกว่าเดิม
- Speech Recognition – มีความท้าทายอีกมากจากข้อมูลที่มีการรบกวนเช่น งานคอนเสิร์ต ปาร์ตี้ เป็นต้น
- NLP – โมเดลต้องการเข้าใจภาษาต่างๆมากขึ้น สำเนียงเฉพาะถิ่น และการเน้นเสียงของการออกเสียง
นอกจากกรณีเหล่านี้แล้ว Facebook ยังทราบถึงกรณีอื่นที่ AI สามารถเข้าร่วมได้ รวมถึงโลกของ Metaverse ที่จะเกิดขึ้น ด้วยเหตุนี้เองทีมงานจึงประเมินแล้วว่าเครื่อง Supercomputer เดิมไม่เพียงพออีกต่อไป ในปี 2020 จึงได้เริ่มการสร้าง Supercomputer ที่ประกาศในวันนี้ โดยไอเดียของการออกแบบก็คือ ต้องสามารถรองรับการเทรนโมเดลด้วยพารามิเตอร์ได้มากกว่า 1012 สำหรับชุดข้อมูลขนาด Exabyte หรือวีดีโอคุณภาพสูงยาว 36,000 ปี ซึ่งนำไปสู่สเป็คดังนี้
- NVidia DGX A100 760 ตัวหรือ 6,080 GPU โดยเชื่อมต่อกันผ่าน NVidia Quantum 1,600 Gb/s InfiniteBand
- ส่วนของ Storage เลือกใช้ Pure Storage Flash Array 175 เพตตะไบต์
- Cache ของ Storage ใน Penguin Computing Altus ขนาด 46 เพตตะไบต์ และ Pure Storage Flash Blade ขนาด 10 เพนตะไบต์
อย่างไรก็ดีเครือข่ายของ AI Research Center นี้ได้ถูกออกแบบมาให้รองรับการประมวลผลได้เพิ่มราว 2.5 เท่าหรือ 16,000 GPU ซึ่งอยู่ในขั้นตอนถัดไป โดยเมื่อแล้วเสร็จคาดว่าจะเป็น AI Supercomputer ที่แรงที่สุดด้วยกำลัง 5 Exaflops ทั้งนี้ด้วยความที่การออกแบบ Storage ให้ขยายตัวได้จากเทระไบต์เป็นเพนตะไบต์ ทำให้ทีมงานต้องสร้างเทคโนโลยีขึ้นมาใหม่ภายใต้ชื่อ AI Research Store ซึ่งมีส่วนช่วยในการเตรียมข้อมูลก่อนเทรนและนำไปใช้เทรนได้หลายครั้ง รวมถึงช่วยเรื่อง Data Transfer ข้อมูลข้าม Region จาก Data Center อื่นของตน
เรื่อง Security ในบล็อกของ Meta ชี้ว่าไอเดียการออกแบบนั้นต่างไปจากเดิมที่เคยเป็น Open source และใช้ข้อมูลภายนอก แต่ปัจจุบันไอเดียคือใช้ข้อมูลที่สร้างจากระบบของตน อย่างไรก็ดีเรื่อง Privacy ข้อมูลมีการเข้ารหัสตลอดการส่ง และมีเครื่องมือ พร้อมกระบวนการตรวจสอบให้แน่ใจว่าข้อมูลเป็น Anonymous รวมถึงลบกุญแจถอดรหัสเรื่อยๆ โดยทีมงานคุยว่าปลอดภัยแม้จะเข้าถึงทางกายภาพได้ นอกจากนี้ต้องบอกเลยว่า AI Research Center ไม่มีขาเชื่อมต่อกับอินเทอร์เน็ตภายนอกแต่รับข้อมูลได้จาก Data Center อื่นของตนเท่านั้น
ผลลัพธ์การทดสอบเทียบกับเครื่องปี 2017 พบว่า การรันงานด้าน Computer Vision ทำได้เหนือกว่าเดิม 20 เท่า เมื่อรัน NVidia Collective Communication Library (NCCL) เร็วกว่าเดิม 9 เท่า เทรนโมเดล NLP ขนาดใหญ่ได้เร็วกว่าเดิม 3 เท่า กล่าวคือตอนนี้สามารถเทรนพารามิเตอร์หลักหลายหมื่นล้านตัวได้เสร็จใน 3 สัปดาห์จากเดิม 9 สัปดาห์
ที่มา : https://ai.facebook.com/blog/ai-rsc และ https://about.fb.com/news/2022/01/introducing-metas-next-gen-ai-supercomputer/