Oracle ประกาศแผนติดตั้ง AI Cluster ระดับ Zettascale แห่งแรกของโลกบน Oracle Cloud Infrastructure โดยมีประสิทธิภาพสูงถึง 2.4 zettaflops สำหรับงาน AI พร้อมให้บริการในไตรมาสแรกของปี 2025
Oracle Corp. เปิดเผยแผนการติดตั้ง AI Cluster ระดับ Zettascale แห่งแรกของโลกบน Oracle Cloud Infrastructure โดยจะมีประสิทธิภาพสูงถึง 2.4 zettaflops สำหรับการประมวลผลงานด้าน AI ซึ่งเร็วกว่าซูเปอร์คอมพิวเตอร์ที่เร็วที่สุดในปัจจุบันหลายเท่า โดย Cluster นี้จะพร้อมให้บริการในไตรมาสแรกของปี 2025
Cluster ดังกล่าวใช้ GPU Nvidia Blackwell B200 จำนวนสูงสุดถึง 131,072 ตัว ซึ่งมากกว่าจำนวน GPU ในซูเปอร์คอมพิวเตอร์ที่เร็วที่สุดในโลกอย่าง Frontier ถึง 3 เท่า B200 ประกอบด้วยโมดูลประมวลผล 2 ส่วนที่ผลิตด้วยกระบวนการ 4 นาโนเมตร เชื่อมต่อกันด้วยระบบที่สามารถถ่ายโอนข้อมูลได้ถึง 10 เทราไบต์ต่อวินาที พร้อมหน่วยความจำ HBM3e ขนาด 192 กิกะไบต์ และมีจำนวนทรานซิสเตอร์รวม 208 พันล้านตัว
นอกจากนี้ Cluster ยังรองรับโปรโตคอลเครือข่าย InfiniBand และ RoCEv2 ซึ่งรองรับการทำ kernel bypass ช่วยให้ข้อมูลส่งผ่าน GPU ได้เร็วขึ้น Oracle ยังเตรียมอัพเกรด Storage Infrastructure เพื่อรองรับ AI Cluster ใหม่นี้ โดยจะเพิ่มบริการ Lustre file service แบบ fully managed ที่รองรับความเร็วในการถ่ายโอนข้อมูลหลายสิบ terabits ต่อวินาที พร้อมเพิ่มความสามารถของเครือข่าย frontend สำหรับ GPU Compute จาก 100 Gbps เป็น 200 Gbps สำหรับ H200 และ 400 Gbps ต่อ instance สำหรับ B200 และ GB200
Oracle ยังประกาศแผนการเพิ่มทางเลือก Infrastucture ใหม่บน Oracle Cloud โดยจะนำระบบ Nvidia GB200 NVL72 มาให้บริการในช่วงเวลาเดียวกับ B200 Cluster โดย GB200 NVL72 เป็นระบบที่ใช้การระบายความร้อนด้วยของเหลว มาพร้อมกับ GPU GB200 จำนวน 36 ตัว ซึ่งแต่ละตัวประกอบด้วย B200 2 ตัวและ CPU 1 ตัว นอกจากนี้ GB200 ยังรองรับเทคโนโลยี SHARP ของ Nvidia ซึ่งช่วยลดปริมาณข้อมูลที่ต้องส่งผ่านเครือข่าย ทำให้ลดการใช้พลังงานประมวลผลและเพิ่มประสิทธิภาพสำหรับงาน AI ยิ่งขึ้น Oracle ยังเตรียมเพิ่ม Cluster ใหม่ที่ใช้ GPU H200 ซึ่งสามารถรองรับการทำงานได้สูงสุดถึง 65,536 ชิป ให้ประสิทธิภาพ 260 exaflops หรือประมาณ 1 ใน 4 ของ zettaflop ภายในปีนี้