NVIDIA เปิดตัว TensorRT-LLM ช่วยเร่งความเร็วการทำ Inference สำหรับ Large Language Model

September 12, 2023 AI, Cloud and Systems, GPU, NVidia, Products, Server and Storage

NVIDIA เปิดตัว TensorRT-LLM ช่วยเร่งความเร็วการทำ Inference สำหรับ Large Language Model บน NVIDIA H100 GPU

NVIDIA ได้ประกาศเปิดตัว TensorRT-LLM เครื่องมือ Open-source ตัวใหม่ที่ช่วยให้การทำ Inference สำหรับงาน Large Language Model บน NVIDIA H100 GPU มีประสิทธิภาพมากขึ้น การใช้งาน Large Language Model ขนาดใหญ่มักเกิดปัญหาความล่าช้าเมื่อต้องทำ Inference ข้อมูลที่ต้องแบ่งการทำงานกระจายไปในหลาย GPU พร้อมกัน โดย TensorRT-LLM จะเข้ามาแก้ไขปัญหาจุดนี้ด้วยการใช้ Tensor Parallelism เพื่อให้การทำ Inference ในระบบขนาดใหญ่มีประสิทธิภาพยิ่งขึ้น ปัจจุบันรองรับการใช้งานบนโมเดลหลายตัว เช่น Llama 2, GPT-2, GPT-3, Falcon, MosaicMPT และ BLOOM นอกจากนี้ยังมีกระบวนการทำ In-flight batching เพื่อช่วยกระจายงานหลายรูปแบบในระบบ AI ให้มีประสิทธิภาพมากขึ้นอีกด้วย ช่วยตอบโจทย์ระบบ AI Chatbot ที่ต้องรองรับการป้อนคำสั่งหลายรูปแบบได้พร้อมกัน

TensorRT-LLM ช่วยเพิ่มความเร็วในการทำ Inference ได้ถึง 2 เท่าบน NVIDIA H100 GPU เมื่อนำมาใช้กับงานประเภท Article Summarization ส่วนผลทดสอบบนโมเดล GPT-J-6B ก็ดีกว่า A100 GPU ถึง 8 เท่าเลยทีเดียว ปัจจุบัน NVIDIA ได้เปิดให้นักพัฒนาได้ทดสอบ TensorRT-LLM Software Suite ผ่านทาง NVIDIA Developer Program แบบ Early Access แล้ว และเตรียมจะเพิ่มลงใน NeMo framework ซึ่งอยู่ภายใต้ NVIDIA AI Enterprise ในช่วงเดือนหน้า

ที่มา: https://siliconangle.com/2023/09/08/nvidia-unveils-tensorrt-llm-boost-ai-inference-performance-h100-gpus/

Tags ai inference ai optimization large language model nvidia ai enterprise nvidia developer program nvidia nemo framework nvidia tensorrt-llm

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Meta เตรียมปล่อยโมเดล AI รุ่นใหม่ เพิ่มความสามารถด้าน Coding หวังชน GPT-5.5

Meta เตรียมปล่อยโมเดล AI รุ่นใหม่ที่พัฒนาต่อยอดจาก Muse Spark โดย Alexandr Wang Chief AI Officer ของ Meta เปิดเผยผ่านแพลตฟอร์ม …

[Video] WatchGuard Webinar : Zero Trust Made Simple

ในอดีต การวางระบบ Zero Trust Architecture มักถูกมองว่าเป็น ‘ยาขม’ ของฝ่ายไอทีและองค์กรจำนวนมาก เพราะแนวคิดที่ต้อง ‘ไม่เชื่อใจใคร และต้องตรวจสอบเสมอ’ นั้น มักตามมาด้วยความซับซ้อนยุ่งเหยิงในการบริหารจัดการ ในงาน WatchGuard Webinar ครั้งนี้ท่านจะได้รับชมกับแนวทางที่ทำให้ Zero Trust …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

NVIDIA เปิดตัว TensorRT-LLM ช่วยเร่งความเร็วการทำ Inference สำหรับ Large Language Model

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also

Meta เตรียมปล่อยโมเดล AI รุ่นใหม่ เพิ่มความสามารถด้าน Coding หวังชน GPT-5.5

[Video] WatchGuard Webinar : Zero Trust Made Simple

NVIDIA เปิดตัว TensorRT-LLM ช่วยเร่งความเร็วการทำ Inference สำหรับ Large Language Model

Share this:

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also