CDIC 2023

Meta เปิดตัว AI Research SuperCluster สำหรับงานประมวลผลด้าน AI รองรับ Metaverse

Meta ได้ออกมาเผยถึง Supercomputer ใหม่ที่สามารถใช้งานได้แล้ว โดยเร็วกว่าเดิมถึง 20 เท่าในงาน Computer Vision ซึ่งทีมงานออกแบบมาให้รองรับข้อมูลได้ถึง Exabytes

Credit ; Facebook

ในปี 2013 Facebook ได้เข้าสู่การทำงานด้าน AI อย่างจริงจัง และหัวใจสำคัญของการทำงานด้าน AI ก็คือแรงประมวลผลมหาศาล ซึ่งในปี 2017 ได้ถือกำเนิด HPC ที่ประกอบขึ้นจาก NVidia v100 Tensor Core 22,000 GPU ที่รองรับการเทรนข้อมูลได้ราว 35,000 งานต่อวัน ทั้งนี้กล่าวได้ว่า Facebook ถือเป็นหนึ่งในทีมงานที่ใช้งานและเข้าใจพลังของ AI อย่างลึกซึ้ง โดยหลังจากที่ตระหนักดีแล้วว่าสิ่งที่มียังไม่สามารถตอบโจทย์การใช้งานเช่น

  • ตรวจสอบเนื้อหาไม่เหมาะสม – โมเดลของ AI ที่ทำงานด้านนี้มีความซับซ้อนสูง ขนาดใหญ่ และต้องขยายตัวได้
  • Computer Vision – ควรรองรับวีดีโอที่มีขนาดใหญ่ขี้น วิเคราะห์เนื้อหาได้นาน และอัตราการ Sampling ที่ดีกว่าเดิม
  • Speech Recognition – มีความท้าทายอีกมากจากข้อมูลที่มีการรบกวนเช่น งานคอนเสิร์ต ปาร์ตี้ เป็นต้น
  • NLP – โมเดลต้องการเข้าใจภาษาต่างๆมากขึ้น สำเนียงเฉพาะถิ่น และการเน้นเสียงของการออกเสียง

นอกจากกรณีเหล่านี้แล้ว Facebook ยังทราบถึงกรณีอื่นที่ AI สามารถเข้าร่วมได้ รวมถึงโลกของ Metaverse ที่จะเกิดขึ้น ด้วยเหตุนี้เองทีมงานจึงประเมินแล้วว่าเครื่อง Supercomputer เดิมไม่เพียงพออีกต่อไป ในปี 2020 จึงได้เริ่มการสร้าง Supercomputer ที่ประกาศในวันนี้ โดยไอเดียของการออกแบบก็คือ ต้องสามารถรองรับการเทรนโมเดลด้วยพารามิเตอร์ได้มากกว่า 1012   สำหรับชุดข้อมูลขนาด Exabyte หรือวีดีโอคุณภาพสูงยาว 36,000 ปี ซึ่งนำไปสู่สเป็คดังนี้

  • NVidia DGX A100 760 ตัวหรือ 6,080 GPU โดยเชื่อมต่อกันผ่าน NVidia Quantum 1,600 Gb/s InfiniteBand 
  • ส่วนของ Storage เลือกใช้ Pure Storage Flash Array 175 เพตตะไบต์
  • Cache ของ Storage ใน Penguin Computing Altus ขนาด 46 เพตตะไบต์ และ Pure Storage Flash Blade ขนาด 10 เพนตะไบต์

อย่างไรก็ดีเครือข่ายของ AI Research Center นี้ได้ถูกออกแบบมาให้รองรับการประมวลผลได้เพิ่มราว 2.5 เท่าหรือ 16,000 GPU ซึ่งอยู่ในขั้นตอนถัดไป โดยเมื่อแล้วเสร็จคาดว่าจะเป็น AI Supercomputer ที่แรงที่สุดด้วยกำลัง 5 Exaflops ทั้งนี้ด้วยความที่การออกแบบ Storage ให้ขยายตัวได้จากเทระไบต์เป็นเพนตะไบต์ ทำให้ทีมงานต้องสร้างเทคโนโลยีขึ้นมาใหม่ภายใต้ชื่อ AI Research Store ซึ่งมีส่วนช่วยในการเตรียมข้อมูลก่อนเทรนและนำไปใช้เทรนได้หลายครั้ง รวมถึงช่วยเรื่อง Data Transfer ข้อมูลข้าม Region จาก Data Center อื่นของตน

เรื่อง Security ในบล็อกของ Meta ชี้ว่าไอเดียการออกแบบนั้นต่างไปจากเดิมที่เคยเป็น Open source และใช้ข้อมูลภายนอก แต่ปัจจุบันไอเดียคือใช้ข้อมูลที่สร้างจากระบบของตน อย่างไรก็ดีเรื่อง Privacy ข้อมูลมีการเข้ารหัสตลอดการส่ง และมีเครื่องมือ พร้อมกระบวนการตรวจสอบให้แน่ใจว่าข้อมูลเป็น Anonymous รวมถึงลบกุญแจถอดรหัสเรื่อยๆ โดยทีมงานคุยว่าปลอดภัยแม้จะเข้าถึงทางกายภาพได้ นอกจากนี้ต้องบอกเลยว่า AI Research Center ไม่มีขาเชื่อมต่อกับอินเทอร์เน็ตภายนอกแต่รับข้อมูลได้จาก Data Center อื่นของตนเท่านั้น

ผลลัพธ์การทดสอบเทียบกับเครื่องปี 2017 พบว่า การรันงานด้าน Computer Vision ทำได้เหนือกว่าเดิม 20 เท่า เมื่อรัน NVidia Collective Communication Library (NCCL) เร็วกว่าเดิม 9 เท่า เทรนโมเดล NLP ขนาดใหญ่ได้เร็วกว่าเดิม 3 เท่า กล่าวคือตอนนี้สามารถเทรนพารามิเตอร์หลักหลายหมื่นล้านตัวได้เสร็จใน 3 สัปดาห์จากเดิม 9 สัปดาห์

ที่มา : https://ai.facebook.com/blog/ai-rsc และ https://about.fb.com/news/2022/01/introducing-metas-next-gen-ai-supercomputer/


About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

ยกระดับบริการขององค์กรอย่างมั่นใจด้วย HPE Aruba Networking SASE โดย ยิบอินซอย

HPE Aruba Networking นำเสนอ Unified SASE ที่รวมเอาความสามารถของเทคโนโลยี SD-WAN และ SSE เข้าไว้ด้วยกัน เพื่อความง่ายดายในการบริหารจัดการ SD-WAN, Routing, WAN Optimization ตลอดจนการบังคับใช้นโยบายความปลอดภัยได้แบบ end-to-end เพื่อให้การทำงานของแอปพลิเคชันมีประสิทธิภาพสูงขึ้น มั่นคงปลอดภัย ลดต้นทุน และพร้อมให้บริการเสมอ

Microsoft แพตช์แก้ไขช่องโหว่เร่งด่วน 2 รายการให้ Edge, Teams และ Skype

Microsoft ได้แก้ไขช่องโหว่ Heap Buffer Overflow 2 รายการอย่างเร่งด่วนในไลบรารีที่ผลิตภัณฑ์ของตนเกี่ยวข้อง ทั้งนี้มีรายงานพบว่าช่องโหว่ได้ถูกนำไปใช้โจมตีจริงแล้ว