Google Cloud Run ประกาศรองรับการทำ AI Inference ด้วย GPU Nvidia L4

Google Cloud ประกาศเพิ่มการรองรับ GPU Nvidia L4 สำหรับ Google Cloud Run แพลตฟอร์ม Serverless เพื่อช่วยให้นักพัฒนาสามารถรันแอปพลิเคชัน AI บน Cloud ได้ง่ายและรวดเร็วยิ่งขึ้น

Credit: Google

Google Cloud Run เป็นแพลตฟอร์มแบบ Fully Managed Serverless ที่ช่วยให้นักพัฒนาสามารถเปิดใช้งานแอปพลิเคชัน, Website และ Workflow online ได้อย่างรวดเร็ว โดยนักพัฒนาเพียงอัปโหลดโค้ดในรูปแบบ Stateless Container เข้าสู่ Serverless Environment โดยไม่ต้องกังวลเรื่องการจัดการ Infrastucture

การเพิ่มการรองรับ GPU Nvidia L4 ใน Google Cloud Run ช่วยเพิ่มขีดความสามารถในการประมวลผล AI อย่างมีนัยสำคัญ โดย GPU รุ่นนี้มาพร้อมหน่วยความจำ VRAM ขนาด 24GB ซึ่งเพียงพอสำหรับการรันโมเดล AI ขนาดใหญ่ที่มีพารามิเตอร์สูงถึง 9 พันล้านตัว เช่น Llama 3.1 (8B), Mistral (7B) และ Gemma 2 (9B) ได้อย่างรวดเร็ว

ความสามารถนี้เปิดโอกาสให้นักพัฒนาสามารถสร้างและใช้งานแอปพลิเคชัน AI ที่หลากหลายมากขึ้น โดยเฉพาะอย่างยิ่งการทำ Inference กับ Lightweight LLM อย่าง Gemma 2B, Gemma 7B หรือ Llama-3 8B ซึ่งสามารถนำไปประยุกต์ใช้ในการสร้าง Chatbot หรือโมเดล AI สำหรับสรุปข้อมูล (AI Summarization) ที่สามารถรองรับการเพิ่มขึ้นของทราฟฟิกได้อย่างยืดหยุ่น

นอกจากนี้ Cloud Run ยังมีคุณสมบัติ Auto-scaling ที่ช่วยให้ระบบสามารถปรับลดทรัพยากรลงเมื่อไม่มีการใช้งาน ทำให้ผู้ใช้ไม่ต้องเสียค่าใช้จ่ายในช่วงเวลาที่ไม่มีการใช้งานแอปพลิเคชัน ซึ่งเป็นประโยชน์อย่างมากสำหรับการประหยัดต้นทุนในการรันแอปพลิเคชัน AI ที่มักมีความต้องการใช้ทรัพยากรสูงแต่อาจไม่ได้ใช้งานตลอดเวลา

ปัจจุบัน GPU Nvidia L4 บน Google Cloud Run อยู่ในช่วง Preview ในภูมิภาค us-central1 (Iowa) และจะเปิดให้บริการในยุโรปและเอเชียภายในสิ้นปีนี้ โดยรองรับการใช้งาน GPU L4 หนึ่งตัวต่อหนึ่ง Instance และไม่จำเป็นต้องจองล่วงหน้า

ที่มา: https://siliconangle.com/2024/08/21/google-cloud-run-speeds-demand-ai-inference-nvidias-l4-gpus/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่ Cupertino, CA แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

OpenAI เปิดตัวโมเดล Audio รุ่นใหม่สำหรับพัฒนา Voice Agent อัจฉริยะ

OpenAI ประกาศเปิดตัวโมเดล Audio รุ่นใหม่ที่มีประสิทธิภาพสูงทั้ง Speech-to-Text และ Text-to-Speech พร้อมให้นักพัฒนาทั่วโลกใช้งานผ่าน API เพื่อสร้าง Voice Agent ที่มีความสามารถในการโต้ตอบอย่างเป็นธรรมชาติ

สตาร์ทอัพโครงสร้างพื้นฐานระบบคลาวด์ Evroc ระดมทุน 50.6 ล้านยูโร สร้างศูนย์ข้อมูลเพิ่ม

Evroc สตาร์ทอัพโครงสร้างพื้นฐานระบบคลาวด์จากสวีเดนประกาศว่าระดมทุนได้จำนวน 50.6 ล้านยูโรในรอบ Series B ที่นำโดย blisce/ เพื่อขยายเครือข่ายศูนย์ข้อมูลของบริษัท