Mistral AI สตาร์ทอัพด้าน AI จากยุโรป เปิดตัวโมเดลภาษาใหม่ขนาด 24 พันล้านพารามิเตอร์ ที่มีประสิทธิภาพเทียบเท่าโมเดลขนาดใหญ่กว่า 3 เท่า พร้อมลดต้นทุนการประมวลผลอย่างมีนัยสำคัญ
Mistral Small 3 บรรลุความแม่นยำ 81% ในการทดสอบมาตรฐาน โดยประมวลผลได้ 150 โทเคนต่อวินาที และเผยแพร่ภายใต้ใบอนุญาต Apache 2.0 ที่อนุญาตให้องค์กรต่างๆ สามารถปรับแต่งและนำไปใช้งานได้อย่างอิสระ Guillaume Lample หัวหน้าฝ่ายวิทยาศาสตร์ของ Mistral เปิดเผยว่าโมเดลนี้มีประสิทธิภาพดีที่สุดในกลุ่มโมเดลที่มีขนาดต่ำกว่า 70 พันล้านพารามิเตอร์ และมีความสามารถใกล้เคียงกับ Llama 3.3 70B ของ Meta ที่มีขนาดใหญ่กว่า
การพัฒนาของ Mistral มุ่งเน้นที่ประสิทธิภาพมากกว่าขนาด โดยใช้เทคนิคการฝึกฝนที่ดีขึ้นแทนการเพิ่มกำลังประมวลผล โมเดลถูกฝึกฝนด้วยข้อมูล 8 ล้านล้านโทเคน เทียบกับโมเดลคู่แข่งที่ใช้ 15 ล้านล้านโทเคน และไม่ได้ใช้เทคนิค Reinforcement Learning หรือข้อมูลสังเคราะห์ในการฝึกฝน ซึ่งช่วยลดความเอนเอียงที่ไม่พึงประสงค์ในโมเดล รูปแบบการทำงานนี้เหมาะสำหรับองค์กรที่ต้องการใช้งาน AI ในระบบภายในเพื่อความเป็นส่วนตัวและความน่าเชื่อถือ โดยสามารถทำงานบน GPU เพียงหนึ่งตัวและรองรับการใช้งานทั่วไปในธุรกิจได้ 80-90%