NVIDIA เปิดตัว TensorRT-LLM ช่วยเร่งความเร็วการทำ Inference สำหรับ Large Language Model บน NVIDIA H100 GPU
NVIDIA ได้ประกาศเปิดตัว TensorRT-LLM เครื่องมือ Open-source ตัวใหม่ที่ช่วยให้การทำ Inference สำหรับงาน Large Language Model บน NVIDIA H100 GPU มีประสิทธิภาพมากขึ้น การใช้งาน Large Language Model ขนาดใหญ่มักเกิดปัญหาความล่าช้าเมื่อต้องทำ Inference ข้อมูลที่ต้องแบ่งการทำงานกระจายไปในหลาย GPU พร้อมกัน โดย TensorRT-LLM จะเข้ามาแก้ไขปัญหาจุดนี้ด้วยการใช้ Tensor Parallelism เพื่อให้การทำ Inference ในระบบขนาดใหญ่มีประสิทธิภาพยิ่งขึ้น ปัจจุบันรองรับการใช้งานบนโมเดลหลายตัว เช่น Llama 2, GPT-2, GPT-3, Falcon, MosaicMPT และ BLOOM นอกจากนี้ยังมีกระบวนการทำ In-flight batching เพื่อช่วยกระจายงานหลายรูปแบบในระบบ AI ให้มีประสิทธิภาพมากขึ้นอีกด้วย ช่วยตอบโจทย์ระบบ AI Chatbot ที่ต้องรองรับการป้อนคำสั่งหลายรูปแบบได้พร้อมกัน
TensorRT-LLM ช่วยเพิ่มความเร็วในการทำ Inference ได้ถึง 2 เท่าบน NVIDIA H100 GPU เมื่อนำมาใช้กับงานประเภท Article Summarization ส่วนผลทดสอบบนโมเดล GPT-J-6B ก็ดีกว่า A100 GPU ถึง 8 เท่าเลยทีเดียว ปัจจุบัน NVIDIA ได้เปิดให้นักพัฒนาได้ทดสอบ TensorRT-LLM Software Suite ผ่านทาง NVIDIA Developer Program แบบ Early Access แล้ว และเตรียมจะเพิ่มลงใน NeMo framework ซึ่งอยู่ภายใต้ NVIDIA AI Enterprise ในช่วงเดือนหน้า