Meta เผยรายละเอียด GPU Cluster ใหม่ที่ใช้เทรน Llama 3

Meta ได้ออกมาเผยรายละเอียด GPU Cluster ชุดใหม่ สำหรับใช้เทรนโมเดล Llama 3

Credit: Meta

Meta มีเป้าหมายหลักในการพัฒนาระบบ Artificial General Intelligence (AGI) ที่มีประสิทธิภาพสูงและเป็นสถาปัตยกรรมแบบเปิด ก่อนหน้านี้ในปี 2022 ได้มีการเผยรายละเอียด AI Research SuperCluster (RSC) ซึ่งใช้ในขั้นตอนการพัฒนาโมเดล Llama และ Llama 2 ออกมา ขณะนั้นใช้งาน NVIDIA A100 GPU กว่า 16,000 ตัว

ล่าสุด Meta ได้ออกมาเผยรายละเอียดของ GPU Cluster ชุดใหม่ โดยนำเทคนิคที่ได้จากการพัฒนา RSC มาต่อยอด เพื่อใช้ในการพัฒนาและเทรนโมเดล Llama 3 รุ่นใหม่และงานวิจัยเกี่ยวกับ GenAI อื่นๆ โดยแบ่ง GPU Cluster ออกเป็น 2 ชุด แต่ละชุดประกอบด้วย NVIDIA Tensor Core H100 จำนวน 24,576 ตัว แตกต่างกันตรงที่อุปกรณ์เครือข่าย ชุดแรกมีการใช้งาน RDMA over Converged Ethernet (RoCE) ผ่านทาง Arista 7800, Wedge400 และ Minipack2 OCP ส่วนชุดที่สองใช้งาน NVIDIA Quantum InfiniBand โดยทั้งสองชุดมีความเร็วในการเชื่อมต่อระดับ 400 Gbps ให้ผลลัพธ์ในการทำงานเป็นอย่างดี ไม่เกิดปัญหาคอขวดในฝั่งเครือข่าย ทำให้ Meta สามารถนำเทคนิคต่างๆไปต่อยอดในการสร้าง GPU Cluster แบบ Large scale ได้ในอนาคต

ในด้าน Compute Node มีการใช้งาน Grand Teton ซึ่งเป็น GPU hardware platform ที่พัฒนาขึ้นใช้งานภายใน และอยู่ในโครงการ Open Compute Project (OCP) มีการใช้งานมาตรฐาน Open Rack ในการบริหารจัดการ Cluster และการจัดการพลังงาน ส่วนฝั่ง Storage มีการใช้งาน Tectonic ระบบ Distributed Filesystem ขนาดใหญ่สำหรับ Flash Storage และใช้งาน Hammerspace สำหรับระบบ Parallel network file system (NFS) นอกจากนี้ยังมีนักพัฒนาภายในที่คอยปรับแต่งชุดซอฟต์แวร์ให้เหมาะสมกับระบบ GPU Cluster มีการนำวิธีการที่ใช้ไปต่อยอด PyTorch ระบบ AI framework ให้รองรับการใช้งาน AI บน GPU Cluster ระดับ 10,000 จนถึง 100,000 ตัวอีกด้วย

Credit: Meta

ปัจจุบัน META มีแผนการขยายจำนวน NVIDIA H100 GPU อีกราว 350,000 ตัว ซึ่งจะทำให้มีจำนวน NVIDIA H100 รวมกันเป็นจำนวน 600,000 ตัวภายในสิ้นปี 2024

ที่มา: https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้