สัปดาห์ที่ผ่านมา Google ได้ออกมาประกาศเปิดตัวถึง 2 สิ่งใหม่สำหรับการประมวลผล AI ได้แก่ Google Cloud TPU v5p ระบบ AI Accelerator รุ่นใหม่ล่าสุดที่มีความเร็ว, การเพิ่มขยาย และความยืดหยุ่นสูงสุดเท่าที่เคยมีมา และ AI Hypercomputer สถาปัตยกรรม Supercomputer ใหม่บน Google Cloud สำหรับรองรับงาน AI โดยเฉพาะ

สำหรับ Google Cloud TPU v5p นี้จะถูกติดตั้งในแบบ Pod โดยแต่ละ Pod จะมีชิปมากถึง 8,960 ชิป พร้อมการเชื่อมต่อแบบ Inter-Chip Interconnect (ICI) ทีความเร็วสูงถึง 4,800Gbps/Chip บน 3D Torus Topology
เมื่อเทียบกับ TPU v4 แล้ว TPU v5p จะมี FLOPS สูงกว่าถึง 2 เท่า และมี High-Bandwidth Memory (HBM) สูงกว่าถึง 3 เท่า ทำให้สามารถเทรน LLM Model ขนาดใหญ่ได้เร็วขึ้นถึง 2.8 เท่า และเทรน Embedding-Dense Model ได้เร็วขึ้นถึง 1.9 เท่า

ทางด้าน AI Hypercomputer นั้น Google ได้เล็งเห็นมาเป็นเวลานานแล้วว่า Hardware และ Software แบบดั้งเดิมนั้นไม่สามารถตอบโจทย์ของการทำ AI/ML ได้อย่างเพียงพอ จึงได้ผสานรวมงานวิจัยและการพัฒนาในช่วงหลายสิบปีที่ผ่านมา นำมาออกแบบสถาปัตยกรรมใหม่เพื่อรองรับ AI Workload โดยเฉพาะ ดังนี้

- ใช้ Hardware ที่ปรับปรุงด้านประสิทธิภาพมาโดยเฉพาะ ตั้งแต่การใช้ Ultrascale Data Center Infrastructure เพื่อให้มีความหนาแน่นสูงสุด, การระบายความร้อนด้วยของเหลว, การใช้ระบบเครือข่ายบนเทคโนโลยี Jupiter Data Center Network ที่ Google พัฒนาขึ้นมาเอง ไปจนถึงการใช้พลังงานสะอาด, การใช้น้ำอย่างมีประสิทธิภาพ และการมุ่งสู่เป้าหมาย Carbon-Free
- ใช้ Open Software เพื่อให้นักพัฒนาสามารถใช้งาน Software เพื่อปรับแต่ง, บริหารจัดการ และทำการ Train และ Inference สำหรับ AI ได้อย่างมีประสิทธิภาพสูงสุด โดยรองรับ ML Framework อย่าง JAX, TensorFlow, PyTorch พร้อมทั้งรองรับการทำ Multislice Training และ Multihost Inferencing ได้ ทำให้การรองรับ AI Workload เหล่านี้ง่ายดายและต่อเนื่องมากยิ่งขึ้น อีกทั้งยังสามารถทำงานร่วมกับ Google Kubernetes Engine (GKE) และ Google Compute Engine เพื่อให้สามารถบริหารจัดการทรัพยากรเป็นไปได้ง่ายด้วยประสบการณ์ของ Cloud
- คิดค่าใช้จ่ายแบบยืดหยุ่น ด้วยการคำนวณค่าใช้จ่ายผ่านทาง Dynamic Workload Scheduler ที่สามารถเลือกใช้ได้ทั้งแบบ Flex Start Mode ที่จะได้รับทรัพยากรมาใช้งานมากกว่าและประหยัดกว่า กับแบบ Calendar Mode ที่ต้องการความแน่นอนสำหรับกำหนดการการประมวลผล