Mistral AI บริษัทสตาร์ทอัพจากปารีส เปิดตัวโมเดลภาษาขนาดใหญ่ใหม่สองตัว ได้แก่ Ministral 3B และ 8B ที่ออกแบบมาสำหรับการประมวลผลแบบ on-device และ edge ด้วยขนาดเล็กพอที่จะทำงานบนแพลตฟอร์มขนาดเล็ก เช่น สมาร์ทโฟน แท็บเล็ต และอุปกรณ์ IoT ได้
Mistral เรียกโมเดลใหม่เหล่านี้ว่า “les Ministraux” ซึ่งอยู่ในประเภทโมเดลที่มีขนาดไม่เกิน 10 พันล้านพารามิเตอร์ ทำให้มีขนาดเล็กพอที่จะรันบนแพลตฟอร์มขนาดเล็กต่าง ๆ โดยโมเดลเหล่านี้สามารถนำมาปรับแต่งใช้กับงานที่หลากหลาย เช่น การแปลแบบ on-device, ผู้ช่วยอัจฉริยะ, การวิเคราะห์ข้อมูล local และหุ่นยนต์อัตโนมัติ ได้อย่างมีประสิทธิภาพและสามารถตอบสนองได้อย่างรวดเร็ว นอกจากนี้ยังสามารถทำงานกับโมเดลขนาดใหญ่อย่าง Mistral Large โดยเป็นตัวกลางในการประมวลผลหลายขั้นตอนเพื่อลดค่าใช้จ่ายลงได้ เช่น การแยกวิเคราะห์ข้อมูลขาเข้า การจ่ายงาน และการเรียกแอปพลิเคชัน ทั้งนี้ โมเดลใหม่ทั้งสองตัวสามารถรองรับการประมวลผลได้สูงสุด 128,000 โทเค็น ซึ่งเทียบเท่ากับ GPT-4 Turbo ของ OpenAI โดย Ministral 8B ยังมาพร้อมกับคุณสมบัติพิเศษ “sliding window attention pattern” ที่ช่วยให้การประมวลผลเร็วขึ้นและใช้หน่วยความจำน้อยลงอีกด้วย
การเปิดตัว Ministral 3B และ 8B นี้เกิดขึ้นหนึ่งปีหลังจากการเปิดตัว Mistral 7B ซึ่งบริษัทเคยกล่าวว่าเป็นความก้าวหน้าที่สำคัญในด้านสถาปัตยกรรมโมเดล โดยชื่อ 8B และ 3B นั้นมาจากจำนวนพารามิเตอร์ของโมเดล ได้แก่ 8 พันล้านและ 3 พันล้านตามลำดับนั่นเอง บริษัทระบุว่าโมเดลที่เล็กที่สุดอย่าง Ministral 3B นั้นมีประสิทธิภาพดีกว่า Mistral 7B ในการทดสอบมาตรฐานส่วนใหญ่แล้ว และเมื่อเทียบกับโมเดลขนาดใกล้เคียงกันจากคู่แข่งในการประเมิน Multi-task Language Understanding นั้น โมเดล Ministral 3B ที่ผ่านการเทรนล่วงหน้ายังมีคะแนนสูงกว่า Gemma 2 2B ของ Google และ Llama 3.2 3B ของ Meta โดยได้คะแนน 60.9 เทียบกับ 52.4 และ 56.2 ตามลำดับ ในขณะที่ Ministral 8B เองก็เอาชนะ Llama 8B ไปได้ที่ 65.0 เทียบกับ 64.7 คะแนน
ที่มา: https://siliconangle.com/2024/10/16/mistral-introduces-ministral-3b-8b-device-ai-computing-models/