Google Cloud ประกาศเพิ่มการรองรับ GPU Nvidia L4 สำหรับ Google Cloud Run แพลตฟอร์ม Serverless เพื่อช่วยให้นักพัฒนาสามารถรันแอปพลิเคชัน AI บน Cloud ได้ง่ายและรวดเร็วยิ่งขึ้น
Google Cloud Run เป็นแพลตฟอร์มแบบ Fully Managed Serverless ที่ช่วยให้นักพัฒนาสามารถเปิดใช้งานแอปพลิเคชัน, Website และ Workflow online ได้อย่างรวดเร็ว โดยนักพัฒนาเพียงอัปโหลดโค้ดในรูปแบบ Stateless Container เข้าสู่ Serverless Environment โดยไม่ต้องกังวลเรื่องการจัดการ Infrastucture
การเพิ่มการรองรับ GPU Nvidia L4 ใน Google Cloud Run ช่วยเพิ่มขีดความสามารถในการประมวลผล AI อย่างมีนัยสำคัญ โดย GPU รุ่นนี้มาพร้อมหน่วยความจำ VRAM ขนาด 24GB ซึ่งเพียงพอสำหรับการรันโมเดล AI ขนาดใหญ่ที่มีพารามิเตอร์สูงถึง 9 พันล้านตัว เช่น Llama 3.1 (8B), Mistral (7B) และ Gemma 2 (9B) ได้อย่างรวดเร็ว
ความสามารถนี้เปิดโอกาสให้นักพัฒนาสามารถสร้างและใช้งานแอปพลิเคชัน AI ที่หลากหลายมากขึ้น โดยเฉพาะอย่างยิ่งการทำ Inference กับ Lightweight LLM อย่าง Gemma 2B, Gemma 7B หรือ Llama-3 8B ซึ่งสามารถนำไปประยุกต์ใช้ในการสร้าง Chatbot หรือโมเดล AI สำหรับสรุปข้อมูล (AI Summarization) ที่สามารถรองรับการเพิ่มขึ้นของทราฟฟิกได้อย่างยืดหยุ่น
นอกจากนี้ Cloud Run ยังมีคุณสมบัติ Auto-scaling ที่ช่วยให้ระบบสามารถปรับลดทรัพยากรลงเมื่อไม่มีการใช้งาน ทำให้ผู้ใช้ไม่ต้องเสียค่าใช้จ่ายในช่วงเวลาที่ไม่มีการใช้งานแอปพลิเคชัน ซึ่งเป็นประโยชน์อย่างมากสำหรับการประหยัดต้นทุนในการรันแอปพลิเคชัน AI ที่มักมีความต้องการใช้ทรัพยากรสูงแต่อาจไม่ได้ใช้งานตลอดเวลา
ปัจจุบัน GPU Nvidia L4 บน Google Cloud Run อยู่ในช่วง Preview ในภูมิภาค us-central1 (Iowa) และจะเปิดให้บริการในยุโรปและเอเชียภายในสิ้นปีนี้ โดยรองรับการใช้งาน GPU L4 หนึ่งตัวต่อหนึ่ง Instance และไม่จำเป็นต้องจองล่วงหน้า
ที่มา: https://siliconangle.com/2024/08/21/google-cloud-run-speeds-demand-ai-inference-nvidias-l4-gpus/