Mistral AI เปิดตัว Voxtral โมเดล Speech Understanding แบบ Open Source รองรับหลายภาษา

Mistral AI ประกาศเปิดตัว Voxtral โมเดล speech understanding แบบ open source ที่สามารถถอดความเสียงและเข้าใจบริบทได้ในคราวเดียว มีให้เลือก 2 ขนาดคือ 24B และ 3B พร้อมใช้งานผ่าน API และดาวน์โหลดได้ฟรีภายใต้ลิขสิทธิ์ Apache 2.0

Voxtral เป็นโมเดลที่ออกแบบมาเพื่อแก้ปัญหาข้อจำกัดของระบบ speech recognition ในปัจจุบันที่ต้องเลือกระหว่างระบบ open-source ที่มี word error rate สูง หรือ API แบบปิดที่มีประสิทธิภาพดีแต่ราคาแพงและควบคุมการใช้งานได้น้อย โมเดลนี้มีความสามารถหลักได้แก่ รองรับเสียงความยาวได้ถึง 30 นาทีสำหรับการถอดความหรือ 40 นาทีสำหรับการทำความเข้าใจ, มีระบบ Q&A และการสรุปความในตัวโดยไม่ต้องต่อโมเดลภาษาแยก, รองรับหลายภาษาโดยอัตโนมัติทั้งภาษาอังกฤษ สเปน ฝรั่งเศส โปรตุเกส ฮินดี เยอรมัน ดัตช์ และอิตาลี, สามารถเรียกใช้ function จากเสียงพูดได้โดยตรง และยังคงความสามารถในการประมวลผลข้อความจากโมเดลต้นแบบ Mistral Small 3.1

จากผลการทดสอบ benchmark พบว่า Voxtral มีประสิทธิภาพเหนือกว่า Whisper large-v3 ซึ่งเป็นโมเดล open-source ชั้นนำในปัจจุบันอย่างชัดเจน และยังแข่งขันได้กับ GPT-4o mini Transcribe และ Gemini 2.5 Flash ในทุกการทดสอบ โดยเฉพาะอย่างยิ่งประสิทธิภาพในการถอดความภาษาอังกฤษแบบสั้นและการทดสอบ Mozilla Common Voice ที่ทำได้ดีกว่า ElevenLabs Scribe สำหรับด้านราคา Voxtral Mini Transcribe มีประสิทธิภาพดีกว่า OpenAI Whisper ในราคาที่ถูกกว่าครึ่งหนึ่ง และ Voxtral Small ให้ประสิทธิภาพเทียบเท่า ElevenLabs Scribe ในราคาที่ถูกกว่าครึ่งหนึ่งเช่นกัน

ผู้ใช้งานสามารถเริ่มใช้งาน Voxtral ได้หลายช่องทาง ทั้งการดาวน์โหลดโมเดลจาก Hugging Face เพื่อรันบนเครื่องตนเอง, ใช้งานผ่าน API ที่มีราคาเริ่มต้นที่ 0.001 ดอลลาร์ต่อนาที หรือทดลองใช้ผ่าน Le Chat ในโหมดเสียงที่กำลังทยอยเปิดให้ผู้ใช้งานทั่วไป นอกจากนี้ Mistral AI ยังมีบริการสำหรับองค์กรที่ต้องการ deployment แบบ private, การ fine-tuning สำหรับ domain เฉพาะ, และฟีเจอร์ขั้นสูงอื่นๆ อีกมากมาย รวมถึงมีแผนพัฒนาเพิ่มความสามารถใหม่ๆ เช่น speaker segmentation, audio markups, word-level timestamps และ non-speech audio recognition ในอนาคตอันใกล้

ที่มา: https://mistral.ai/news/voxtral

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

Stripe เปิดตัวผลิตภัณฑ์ใหม่ 288 รายการ พร้อมส่งแผนพลิกโฉมระบบชำระเงินจากเดิมที่เป็นโครงสร้างพื้นฐานในการทำธุรกรรมสำหรับมนุษย์ ให้กลายเป็นโครงสร้างพื้นฐานที่สามารถตั้งโปรแกรมได้และทำงานอย่างต่อเนื่องเพื่อรองรับธุรกกรรมแบบ Machine-to-Machine ถือเป็นการปูทางเข้าสู่ระบบเศรษฐกิจแบบ Agentic AI อย่างเต็มรูปแบบ