สรุป Yip In Tsoi Webinar: Get Ready for Modern AI ออกแบบระบบ IT ให้รองรับ AI ด้วยโซลูชันจาก NVIDIA และ VMware
December 9, 2021
AI, Cloud and Systems, Cybersecurity, Featured Posts, Network Security, NVidia, Products, Server and Storage, Virtualization & Container, VMware, Yip In Tsoi
ในช่วงที่ผ่านมา Yip In Tsoi ที่มีโอกาสในการทำงานร่วมกับธุรกิจองค์กรจำนวนมากทั่วไทย ได้เริ่มเห็นแนวโน้มสำคัญหนึ่งในธุรกิจองค์กรไทย ที่เริ่มมีการลงทุนวางระบบ AI Infrastructure ภายในองค์กรเพื่อเร่งสร้างนวัตกรรมใหม่ๆ ในหลากหลายอุตสาหกรรม โดยเฉพาะอย่างยิ่งในสถาบันการเงินของประเทศไทยที่มักเป็นอุตสาหกรรมแรกที่มักนำเทคโนโลยีใหม่ๆ มาทดลองใช้งานก่อนอุตสาหกรรมอื่นๆ อยู่แล้ว

ด้วยเหตุนี้เอง ทาง Yip In Tsoi จึงได้ทำการค้นหาและคัดเลือกโซลูชันที่จะสามารถตอบโจทย์ของธุรกิจองค์กรในการวาง IT Infrastructure สำหรับ AI และได้ตัดสินใจนำเสนอโซลูชันร่วมกันระหว่าง NVIDIA และ VMware ด้วยประเด็นดังนี้
-
การรองรับเทคโนโลยีและ Workflow มาตรฐานสำหรับ AI จาก NVIDIA
-
ความสามารถในการบริหารจัดการระบบ IT Infrastructure ได้อย่างยืดหยุ่นจาก VMware
-
ความพร้อมในการก้าวสู่ภาพของ Hybrid Multicloud สำหรับ AI ด้วยการใช้ Container เป็นเทคโนโลยีหลักสำหรับการประมวลผล
NVIDIA AI Enterprise: วางระบบ AI Infrastructure ด้วย Technology Stack ที่ปรับแต่งมาเป็นพิเศษจาก NVIDIA
NVIDIA นั้นเป็นผู้นำทางด้านโซลูชัน AI สำหรับธุรกิจองค์กร ทั้งในระดับของ IT Infrastructure ที่เป็นส่วนของ Hardware ในการประมวลผล และ Application Stack สำหรับใช้ในการพัฒนาและใช้งานระบบ AI ทั้งในการ Train Model และการทำ Inference เพื่อใช้งาน

อ้างอิงจาก Gartner ก้าวถัดไปหลังจากที่ธุรกิจได้ทำ Digital Transformation ไปสู่การเป็น Digital Business แล้ว โลกของธุรกิจองค์กรจะเข้าสู่ Algorithmic Business ที่ธุรกิจจะขับเคลื่อนด้วย Algorithm และ AI
อย่างไรก็ดี ในการเตรียมความพร้อมธุรกิจให้สามารถรองรับ AI ได้นั้น ก็มีหลายประเด็นที่ธุรกิจต้องปรับตัว ทั้งในภาคธุรกิจที่ต้องเร่งทำความเข้าใจและมองหาโอกาส, ฝ่าย IT ที่ต้องวางระบบใหม่เพื่อรองรับ Workload ชนิดใหม่ที่เกิดขึ้น และฝ่าย Data ที่ต้องเตรียม Flow การจัดการข้อมูลใหม่เพื่อรองรับการพัฒนาระบบ AI ให้ได้อย่างต่อเนื่องและแม่นยำ

สำหรับประเด็นในการวางระบบ AI Infrastructure ที่ทุกธุรกิจต้องพิจารณาให้ดี ได้แก่
-
Risk ความเสี่ยงในการดำเนินโครงการที่ต้องอาศัยองค์ความรู้ใหม่และองค์ประกอบที่ซับซ้อนหลากหลาย
-
Performance การออกแบบระบบให้มีประสิทธิภาพอย่างเพียงพอและใช้งานได้คุ้มค่า เพื่อพัฒนาและใช้งาน AI
-
Scaling การรองรับการเพิ่มขยายของระบบได้อย่างรวดเร็วและง่ายดายสำหรับ Workload ที่มีพฤติกรรมเฉพาะทาง
ทั้งหมดนี้ได้ทำให้เกิดโซลูชันร่วมกันระหว่าง NVIDIA และ VMware ขึ้นมา โดย NVIDIA นั้นรับบทบาททางด้านผู้พัฒนาเทคโนโลยีสำหรับการประมวลผลงาน AI ประสิทธิภาพสูงและ Workflow ในการพัฒนาและนำ AI มาใช้งาน ในขณะที่ VMware จะรับบทบาทด้านการวางระบบ IT Infrastructure สำหรับ AI ในรูปแบบของ Hybrid Multi-Cloud ที่บริหารจัดการได้ง่ายนั่นเอง

แนวทางดังกล่าวนี้จะช่วยเปลี่ยนวิธีการออกแบบระบบ AI Infrastructure ไปอย่างสิ้นเชิง ดังนี้
-
ก้าวจากการออกแบบระบบเดิมที่องค์กรมักมีระบบแยกเฉพาะสำหรับ AI Workload เป็น Silo สู่ภาพของการที่ระบบทั้งหมดถูกรวมอยู่ด้วยกัน และแบ่งสรรทรัพยากรอย่างเหมาะสมสำหรับแต่ละ Workload โดยอัตโนมัติ
-
เปลี่ยนจากการพัฒนาระบบ AI ด้วยการออกแบบและวางโครงสร้างด้วยจนเองจาก Open Source Software ทั้งหมดที่ดูแลรักษาได้ยาก มาสู่การใช้งานโซลูชันสำเร็จรูปจาก NVIDIA และ VMware ที่บริหารจัดการและเพิ่มขยายได้ง่าย
-
Develop พัฒนา AI ด้วย Framework มาตรฐานเช่น TensorFlow, PyTorch
-
Data Prep เตรียมข้อมูลให้พร้อมสำหรับการพัฒนา AI Model ด้วย NVIDIA RAPIDS
-
Deploy ติดตั้งใช้งาน AI บน NVIDIA TensorRT และ NVIDIA Trigon Inference Server
ทั้งหมดนี้ทำให้โซลูชันจาก NVIDIA รองรับการพัฒนา AI สำหรับการนำไปใช้ทำงานได้หลากหลายรูปแบบ ไม่ว่าจะเป็น Detection, Classification, Segmentation, Prediction, Recommendations และ Natural Language Processing โดยมีตัวอย่างการใช้งานจริงที่หลากหลายโดยเฉพาะอย่างยิ่งในวงการการแพทย์ที่ส่งผลต่อคุณภาพชีวิตของผู้คนโดยตรง เช่น การพัฒนาระบบ AI สำหรับช่วยตรวจภาวะตาบอดในเด็กทารกแรกเกิด, การตรวจสอบอุณหภูมิร่างกายวัดความเสี่ยงในการติดโรค, การวิเคราะห์การผ่าตัด, การป้องกันการล้มในผู้สูงอายุ และการปรับพื้นที่ต่างๆ ให้สามารถเข้าถึงได้แบบ Contactless
การทำงานร่วมกันระหว่างโซลูชันของ NVIDIA และ VMware นี้จะทำให้ธุรกิจองค์กรสามารถดึงศักยภาพของระบบ Hardware ที่มีอยู่มาใช้ประมวลผลงานทางด้าน AI ได้อย่างเต็มที่ด้วยประสิทธิภาพที่แทบไม่ต่างจากการใช้งานแบบ Bare Metal แต่บริหารจัดการได้ง่ายกว่ามาก พร้อมรองรับการเพิ่มขยายระบบได้อย่างง่ายดายในอนาคต และมีกระบวนการทำงานเกี่ยวกับ AI ที่คล่องตัวและเหมาะสมจาก NVIDIA คอยสนับสนุนอยู่ด้วยอีกทางหนึ่ง
ทั้งนี้สำหรับผู้ที่สนใจ ทาง NVIDIA ก็พร้อมให้ทำการทดสอบระบบได้ทั้งบน Cloud และการติดตั้งใช้งานจริงในองค์กรตามต้องการ
VMware vSphere with Tanzu: รองรับทุกการจัดการระบบ AI พร้อมแนวคิดในการจัดสรรทรัพยากรใหม่ด้วย vSphere Namespaces
ในฝั่งของ VMware นั้น การบริหารจัดการ AI Infrastructure ไม่ได้มีเพียงแค่ประสิทธิภาพในการประมวลผลและการรองรับ Workflow ทางด้าน AI เท่านั้น แต่ยังมีเรื่องของการทำ Governance, Compliance, Access Control, Security และ Monitoring ด้วย เพื่อให้การดูแลรักษาระบบเหล่านี้เป็นไปได้อย่างเหมาะสม แก้ไขปัญหาได้อย่างรวดเร็ว
VMware ตอบโจทย์เหล่านี้ด้วย
VMware vSphere with Tanzu เพื่อให้รองรับองค์ประกอบต่างๆ ของ NVIDIA AI Enterprise ที่มักใช้ Container ในการทำงานต่างๆ สำหรับระบบ AI โดยโซลูชันนี้สามารถรองรับการใช้งาน Hardware จาก NVIDIA ได้ด้วยกัน 3 ชนิด ได้แก่
-
GPU สำหรับเร่งการประมวลผลทางด้าน AI โดยเฉพาะ โดยแนะนำให้ใช้งาน NVIDIA A100 สำหรับ AI Training และ NVIDIA A30 สำหรับการทำ Inference
-
DPU สำหรับเร่งการประมวลผลทางด้าน Network และ Data ในรุ่น ConnectX และ BlueField เพิ่มประสิทธิภาพให้กับระบบที่เป็น Cluster
-
AI Server ระบบ Server สำเร็จรูปจาก NVIDIA ให้พร้อมใช้งานทางด้าน AI ได้ทันที
สำหรับความสามารถใน vSphere ที่แนะนำให้มีการใช้งานภายใน AI Infrastructure ก็ได้แก่
-
SR-IOV ช่วยให้การเข้าถึง GPU นั้นรวดเร็วยิ่งขึ้นจากการ Bypass Hypervisor ไป ทำให้ระบบทำงานได้เต็มประสิทธิภาพ
-
Multi Instance GPU (MIG) การแบ่งส่วน GPU ในการ์ดของ NVIDIA เพื่อแยกการประมวลผลสำหรับแต่ละ Workload บนการ์ดใบเดียวออกจากกัน เพื่อรับประกัน QoS ให้กับการประมวลผล
-
GPUDirect RDMA การเชื่อมต่อไปยัง GPU บน Hardware อื่นๆ ด้วยประสิทธิภาพที่สูงผ่าน RDMA โดยตรง ไม่ต้องผ่าน CPU หรือ Memory ของ Server
ในการเลือกใช้ vGPU ก็ต้องพิจารณาให้ดีเช่นกัน เพราะ vGPU แบบดั้งเดิมนั้นจะใช้หลักการของการแบ่งช่วงเวลาในการใช้งานและหน่วยความจำของ GPU เท่านั้น แต่ไม่ได้แบ่งพลังประมวลผลของ GPU จริงๆ ในขณะที่การเลือกใช้ MIG จะช่วยแบ่ง
ได้ถึงระดับของพลังประมวลผลบน GPU ได้จริงๆ และแยกการประมวลผลรวมถึงการใช้หน่วยความจำจากกัน ไม่เกิดกรณีการแย่งทรัพยากรการใช้งาน GPU กันอีกต่อไป

ด้วยความสามารถเหล่านี้เอง ทำให้การใช้งาน AI Workload บน VMware vSphere นั้นมีประสิทธิภาพที่แทบไม่แตกต่างจากการใช้งานบนระบบ Bare Metal เลย
ส่วนการออกแบบระบบ ทาง VMware ก็นำเสนอสองแนวทาง ดังนี้
-
การใช้ Linux VM ติดตั้งพร้อมเชื่อมต่อ GPU
-
การใช้ Tanzu รองรับ Container เพื่อประมวลผลด้วย GPU
สิ่งที่ต้องใช้ในการจัดการ Container เหล่านี้ก็คือ
vSphere Namespaces เพื่อให้ทำการจัดการทรัพยากรในการประมวลผลสำหรับงาน AI หรือ GPU โดยเฉพาะได้ แล้วจึงค่อยนำทรัพยากรเหล่านี้ไปใช้สร้าง Kubernetes Cluster หรือ VM ภายในอีกครั้ง ทำให้ผู้ดูแลระบบสามารถกำหนดทรัพยากรสำหรับผู้ใช้งานแต่ละกลุ่มได้อย่างยืดหยุ่น ไม่ต้องรอผู้ดูแลระบบสร้าง VM หรือ Container ให้อีกต่อไป และทำให้ Developer สามารถใช้งานทรัพยากรส่วนนี้ได้แบบ Self-Service อย่างเต็มตัว
vSphere Namespaces จะกลายเป็นอีกส่วนสำคัญของ VMware หลังจากนี้ ในฐานะของเครื่องมือในการจัดสรรทรัพยากรที่เปิดให้ผู้ใช้งานเข้ามาใช้ได้แบบ Self-Service อย่างแท้จริง ในขณะที่ผู้ดูแลระบบก็ยังควบคุมการใช้งานในภาพรวมได้จากศูนย์กลาง
สนใจโซลูชันระบบ AI จาก NVIDIA หรือ VMware สามารถติดต่อทีมงาน Yip In Tsoi ได้ทันที
สำหรับผู้ที่สนใจโซลูชันทางด้าน AI สามารถติดต่อทีมงาน Yip In Tsoi ได้ทันทีที่โทร 02-353-8600 ต่อ 3210 หรืออีเมล์
yitmkt@yipintsoi.com