Mistral AI เปิดตัว Voxtral โมเดล Speech Understanding แบบ Open Source รองรับหลายภาษา

Mistral AI ประกาศเปิดตัว Voxtral โมเดล speech understanding แบบ open source ที่สามารถถอดความเสียงและเข้าใจบริบทได้ในคราวเดียว มีให้เลือก 2 ขนาดคือ 24B และ 3B พร้อมใช้งานผ่าน API และดาวน์โหลดได้ฟรีภายใต้ลิขสิทธิ์ Apache 2.0

Voxtral เป็นโมเดลที่ออกแบบมาเพื่อแก้ปัญหาข้อจำกัดของระบบ speech recognition ในปัจจุบันที่ต้องเลือกระหว่างระบบ open-source ที่มี word error rate สูง หรือ API แบบปิดที่มีประสิทธิภาพดีแต่ราคาแพงและควบคุมการใช้งานได้น้อย โมเดลนี้มีความสามารถหลักได้แก่ รองรับเสียงความยาวได้ถึง 30 นาทีสำหรับการถอดความหรือ 40 นาทีสำหรับการทำความเข้าใจ, มีระบบ Q&A และการสรุปความในตัวโดยไม่ต้องต่อโมเดลภาษาแยก, รองรับหลายภาษาโดยอัตโนมัติทั้งภาษาอังกฤษ สเปน ฝรั่งเศส โปรตุเกส ฮินดี เยอรมัน ดัตช์ และอิตาลี, สามารถเรียกใช้ function จากเสียงพูดได้โดยตรง และยังคงความสามารถในการประมวลผลข้อความจากโมเดลต้นแบบ Mistral Small 3.1

จากผลการทดสอบ benchmark พบว่า Voxtral มีประสิทธิภาพเหนือกว่า Whisper large-v3 ซึ่งเป็นโมเดล open-source ชั้นนำในปัจจุบันอย่างชัดเจน และยังแข่งขันได้กับ GPT-4o mini Transcribe และ Gemini 2.5 Flash ในทุกการทดสอบ โดยเฉพาะอย่างยิ่งประสิทธิภาพในการถอดความภาษาอังกฤษแบบสั้นและการทดสอบ Mozilla Common Voice ที่ทำได้ดีกว่า ElevenLabs Scribe สำหรับด้านราคา Voxtral Mini Transcribe มีประสิทธิภาพดีกว่า OpenAI Whisper ในราคาที่ถูกกว่าครึ่งหนึ่ง และ Voxtral Small ให้ประสิทธิภาพเทียบเท่า ElevenLabs Scribe ในราคาที่ถูกกว่าครึ่งหนึ่งเช่นกัน

ผู้ใช้งานสามารถเริ่มใช้งาน Voxtral ได้หลายช่องทาง ทั้งการดาวน์โหลดโมเดลจาก Hugging Face เพื่อรันบนเครื่องตนเอง, ใช้งานผ่าน API ที่มีราคาเริ่มต้นที่ 0.001 ดอลลาร์ต่อนาที หรือทดลองใช้ผ่าน Le Chat ในโหมดเสียงที่กำลังทยอยเปิดให้ผู้ใช้งานทั่วไป นอกจากนี้ Mistral AI ยังมีบริการสำหรับองค์กรที่ต้องการ deployment แบบ private, การ fine-tuning สำหรับ domain เฉพาะ, และฟีเจอร์ขั้นสูงอื่นๆ อีกมากมาย รวมถึงมีแผนพัฒนาเพิ่มความสามารถใหม่ๆ เช่น speaker segmentation, audio markups, word-level timestamps และ non-speech audio recognition ในอนาคตอันใกล้

ที่มา: https://mistral.ai/news/voxtral

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

VMware เปิดตัว VCF 9.1 ยกระดับ Private Cloud เพิ่มความคุ้มค่าและความปลอดภัย ตอบโจทย์ยุค AI

VMware ได้ประกาศเปิดตัว VMware Cloud Foundation หรือ VCF 9.1 อย่างเป็นทางการ หวังยกระดับ Private Cloud ให้เป็นแพลตฟอร์มที่บริหารจัดการได้ง่าย คุ้มค่าต่อการลงทุน และมาพร้อมกับระบบรักษาความปลอดภัยที่แข็งแกร่งตั้งแต่ระดับโครงสร้างพื้นฐาน …