NVIDIA เปิดตัว TensorRT-LLM ช่วยเร่งความเร็วการทำ Inference สำหรับ Large Language Model

NVIDIA เปิดตัว TensorRT-LLM ช่วยเร่งความเร็วการทำ Inference สำหรับ Large Language Model บน NVIDIA H100 GPU

Credit: NVIDIA

NVIDIA ได้ประกาศเปิดตัว TensorRT-LLM เครื่องมือ Open-source ตัวใหม่ที่ช่วยให้การทำ Inference สำหรับงาน Large Language Model บน NVIDIA H100 GPU มีประสิทธิภาพมากขึ้น การใช้งาน Large Language Model ขนาดใหญ่มักเกิดปัญหาความล่าช้าเมื่อต้องทำ Inference ข้อมูลที่ต้องแบ่งการทำงานกระจายไปในหลาย GPU พร้อมกัน โดย TensorRT-LLM จะเข้ามาแก้ไขปัญหาจุดนี้ด้วยการใช้ Tensor Parallelism เพื่อให้การทำ Inference ในระบบขนาดใหญ่มีประสิทธิภาพยิ่งขึ้น ปัจจุบันรองรับการใช้งานบนโมเดลหลายตัว เช่น Llama 2, GPT-2, GPT-3, Falcon, MosaicMPT และ BLOOM นอกจากนี้ยังมีกระบวนการทำ In-flight batching เพื่อช่วยกระจายงานหลายรูปแบบในระบบ AI ให้มีประสิทธิภาพมากขึ้นอีกด้วย ช่วยตอบโจทย์ระบบ AI Chatbot ที่ต้องรองรับการป้อนคำสั่งหลายรูปแบบได้พร้อมกัน

TensorRT-LLM ช่วยเพิ่มความเร็วในการทำ Inference ได้ถึง 2 เท่าบน NVIDIA H100 GPU เมื่อนำมาใช้กับงานประเภท Article Summarization ส่วนผลทดสอบบนโมเดล GPT-J-6B ก็ดีกว่า A100 GPU ถึง 8 เท่าเลยทีเดียว ปัจจุบัน NVIDIA ได้เปิดให้นักพัฒนาได้ทดสอบ TensorRT-LLM Software Suite ผ่านทาง NVIDIA Developer Program แบบ Early Access แล้ว และเตรียมจะเพิ่มลงใน NeMo framework ซึ่งอยู่ภายใต้ NVIDIA AI Enterprise ในช่วงเดือนหน้า

ที่มา: https://siliconangle.com/2023/09/08/nvidia-unveils-tensorrt-llm-boost-ai-inference-performance-h100-gpus/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่ Cupertino, CA แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

BOTNOI บริษัทสตาร์ทอัพไทย ได้พัฒนาผู้ช่วยปัญญาประดิษฐ์ที่ใช้ Generative AI รองรับหลายภาษาในภูมิภาคเอเชียตะวันออกเฉียงใต้ โดยใช้บริการคลาวด์ของ AWS [PR]

อะเมซอน เว็บ เซอร์วิสเซส (Amazon Web Services: AWS) บริษัทในเครือของ Amazon.com ประกาศในวันนี้ว่า BOTNOI สตาร์ทอัพด้าน Generative AI ของไทยที่เชี่ยวชาญในการสร้างผู้ช่วยเสมือนจริงสำหรับการสนทนา ได้พัฒนาแพลตฟอร์ม BOTNOI Voice ขึ้นบนคลาวด์ของ AWS เพื่อแปลงข้อความเป็นเสียงพูดและแปลงเสียงพูดเป็นข้อความ โดยใช้เทคโนโลยี Generative AI ที่ได้รับการปรับแต่งให้เหมาะสมกับภาษาและวัฒนธรรมในภูมิภาคเอเชียตะวันออกเฉียงใต้ด้วยข้อมูลภาษาที่ได้รับความยินยอมแล้ว ทำให้องค์กรต่าง ๆ สามารถนำไปใช้ปรับปรุงการบริการลูกค้าได้อย่างมีประสิทธิภาพมากขึ้น

Tenstorrent ระดมทุน 693 ล้านดอลลาร์ ท้าชน Nvidia

Tenstorrent สตาร์ทอัพผลิตชิป AI ที่ตั้งเป้าท้าชิง Nvidia ระดมทุนรอบ Series D นำโดย Samsung Securities และ AFW Partners ได้กว่า …