Microsoft เปิดตัวโมเดลเสียงและภาพความเร็วสูงใหม่

Microsoft ได้เปิดตัวโมเดลปัญญาประดิษฐ์สามรุ่นที่ปรับปรุงมาเพื่อประมวลผลภาพและเสียงโดยเฉพาะ อัลกอริทึมเหล่านี้พร้อมใช้งานผ่าน Microsoft Foundry ซึ่งเป็นบริการ Azure ที่นักพัฒนาสามารถใช้เพื่อสร้างแอปพลิเคชัน AI ได้ ยักษ์ใหญ่ด้านเทคโนโลยียังได้เริ่มทยอยปล่อยโมเดลเหล่านี้ไปยังผลิตภัณฑ์อื่น ๆ อีกจำนวนหนึ่งด้วย

Credit: Microsoft

อัลกอริทึมใหม่ตัวแรกคือ MAI-Image-2 สามารถสร้างภาพที่มีความละเอียดสูงถึง 1024 x 1024 พิกเซลตามคำสั่งของผู้ใช้ แต่ละพรอมต์อาจมีความยาวได้ถึง 32,000 โทเค็น MAI-Image-2 จะเปลี่ยนคำสั่งเป็นภาพโดยใช้พารามิเตอร์แบบ non-embedding ระหว่าง 10 พันล้านถึง 50 พันล้าน พารามิเตอร์แบบ โดย non-embedding เป็นส่วนประกอบของโมเดลที่มุ่งเน้นการสร้างเนื้อหามากกว่างานเตรียมข้อมูลเบื้องต้น

Microsoft กล่าวว่า MAI-Image-2 มีความเร็วอย่างน้อยสองเท่าของโมเดลสร้างภาพรุ่นก่อนหน้า โมเดลใหม่ตัวที่สองที่เปิดตัวในวันนี้คือ MAI-Transcribe-1 ก็นำมาซึ่งการปรับปรุงความเร็วที่สำคัญเช่นกัน สามารถถอดความคำพูดได้เร็วกว่าโมเดลรุ่นก่อน ๆ ของ Microsoft ถึง 2.5 เท่า

จุดขายอีกประการหนึ่งของ MAI-Transcribe-1 คือความถูกต้องแม่นยำ Microsoft ทดสอบอัตราความผิดพลาดของคำเฉลี่ยของโมเดล ซึ่งเป็นมาตรวัดคุณภาพการถอดความ ใน 25 ภาษา MAI-Transcribe-1 บันทึกอัตราความผิดพลาด 3.9% ซึ่งทำให้เหนือกว่า Gemini 3.1 Flash และ GPT-Transcribe ของ OpenAI ปัจจัยหนึ่งที่ส่งผลต่อความแม่นยำของโมเดลคือฟีเจอร์สำหรับการกรองเสียงรบกวนรอบข้าง

ขณะนี้ MAI-Transcribe-1 รองรับการถอดความแบบกลุ่ม ซึ่งหมายความว่าโมเดลสามารถประมวลผลไฟล์ที่เตรียมไว้ล่วงหน้าได้เท่านั้น เช่น หนังสือเสียง ตามข้อมูลจาก Microsoft การอัปเดตในอนาคตจะเพิ่มความสามารถในการถอดความสตรีมเสียงแบบเรียลไทม์ บริษัทกำลังพัฒนาฟีเจอร์ที่เรียกว่า diarization ซึ่งสามารถแยกข้อความของการถอดความออกเป็นส่วน ๆ ที่เฉพาะเจาะจงกับผู้พูด

โมเดลที่สามที่ Microsoft แนะนำในวันนี้คือ MAI-Voice-1 โมเดลนี้ได้รับการปรับปรุงมาเพื่อสร้างเสียงสังเคราะห์ตามสคริปต์ที่ผู้ใช้ให้มา ลูกค้าสามารถเลือกเสียง AI ที่มีมาให้หรือใช้เสียงของตนเอง Microsoft กล่าวว่าโมเดลทั้งสามนำเสนอราคาที่แข่งขันได้เมื่อเทียบกับคู่แข่ง MAI-Image-2 มีราคา 5 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 33 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต MAI-Transcribe-1 มีราคา 0.36 ดอลลาร์ต่อชั่วโมงของคำพูดที่ถอดความ ในขณะที่ MAI-Voice-1 เริ่มต้นที่ 22 ดอลลาร์ต่อ 1 ล้านตัวอักษร

โมเดลเหล่านี้ไม่เพียงพร้อมใช้งานผ่าน Microsoft Foundry เท่านั้น แต่ยังรวมถึงบริการอื่น ๆ อีกหลายรายการ โดย Microsoft กำลังอยู่ระหว่างการทยอยเปิดใช้งาน MAI-Image-2 ไปยัง Bing และ PowerPoint ขณะที่ MAI-Voice-1 สามารถเข้าถึงได้ในเครื่องมือสร้างเสียงที่ชื่อว่า Copilot Audio Expressions

ยักษ์ใหญ่ด้านเทคโนโลยีได้พัฒนาชิป AI แบบกำหนดเองชุดหนึ่งชื่อว่า MAIA เพื่อจ่ายพลังงานให้กับภาระงาน AI สมาชิกใหม่ล่าสุดในตระกูลซีรีส์นี้คือ Maia 200 ที่ปรับปรุงเพื่อการประมวลผลเชิงอนุมาน เปิดตัวเมื่อปลายเดือนมกราคม Microsoft กล่าวว่าชิปแบบสามนาโนเมตรนี้ให้ประสิทธิภาพเหนือกว่าชิป AI แบบกำหนดเองของผู้ให้บริการคลาวด์ที่เป็นคู่แข่งในหลายมาตรวัดเปรียบเทียบ

ที่มา: https://siliconangle.com/2026/04/02/microsoft-launches-new-high-speed-voice-image-models/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Salesforce เข้าซื้อกิจการ Fin มูลค่าราว 3,600 ล้านดอลลาร์ เสริมแกร่ง AI Agent งานบริการลูกค้า

Salesforce ประกาศลงนามข้อตกลงขั้นสุดท้ายเข้าซื้อกิจการ Fin ผู้ให้บริการแพลตฟอร์ม customer agent ในมูลค่าราว 3,600 ล้านดอลลาร์สหรัฐ เพื่อนำเทคโนโลยี AI Agent สำหรับงานบริการลูกค้ามาเสริมความสามารถให้กับ Agentforce

Cisco ออกแพตช์แก้ช่องโหว่ Zero-day บน Catalyst SD-WAN Manager ที่ถูกใช้โจมตียกระดับสิทธิ์เป็น root

Cisco ปล่อยอัปเดตด้านความปลอดภัยแก้ช่องโหว่บน Catalyst SD-WAN Manager (เดิมคือ SD-WAN vManage) หลังพบว่าถูกใช้โจมตีจริงในลักษณะ Zero-day เพื่อยกระดับสิทธิ์เป็น root บนระบบที่ได้รับผลกระทบ